< 《全 本 加 RTA 
Spark : YE SHIZHAN SANBUQ 基于 最 新 的 Spark 2.2.X 版 本 国 
4 全 面 覆盖 Spark 商 业 案例 实战 
以 Spark 内 核 解密 为 基石 
4 深入 讲解 生产 环境 下 的 性 能 调 优 





SoArK 
大 数据 
商 炎 实战 二 部 曲 
内 核 解密 | 商业 案例 | 性 能 调 优 


王家 林 段 智 华 夏 阳 O 编 车 


渡 革 大 学 出 版 社 


Soamkt 
大 数据 
商业 实战 三 部 曲 


王家 林 上 段 智 华 夏 阳 @ 〇 编著 


将 革 大 学 出 版 社 
J 


内 容 简 介 


本 书 基于 Spark 2.2X 最 新 版 本 , 以 Spark 商业 案例 实战 和 Spark 在 生产 环境 下 几乎 所 有 类 型 的 性 能 调 优 


为 核心 ， 





以 Spark 内 核 解密 为 基石 ， 分 为 上 篇 、 中 篇 、 下 篇 ， 对 企业 生产 环境 下 的 Spark 商业 案例 与 性 能 调 


优 抽 丝 剥 草地 进行 剖析 。 上 篇 基于 Spark 源码 , 从 一 个 动手 实战 案例 入 手 , 循序 渐进 地 全 面 解析 了 Spark 2.2.X 
新 特性 及 Spark 内 核 源码 ;中 篇 选取 Spark 开发 中 最 具有 代表 的 经 典 学 习 案 例 ， 深 入 浅 出 地 介绍 ， 在 案例 中 
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大 数据 像 当年 的 石油 、 人 工 智能 〈Artificial Intelligence) 像 当年 的 电力 一 样 ， 正 以 前 所 
未 有 的 广度 和 深度 影响 所 有 的 行业 ， 现 在 及 未 来 公司 的 核心 壁垒 是 数据 ， 核 心 竞 争 力 来 自 基 
于 大 数据 的 人 工 智能 的 竞争 。Spark 是 当今 大 数据 领域 最 活跃 、 最 热门 、 最 高 效 的 大 数据 通 
用 计算 平台 ，2009 年 诞生 于 美国 加 州 大 学 伯克利 分 校 AMP 实验 室 ，2010 年 正式 开源 ，2013 
年 成 为 Apache 基金 项 目 ，2014 年 成 为 Apache 基金 的 顶级 项 目 。 基 于 RDD，Spark 成 功 构建 
起 了 一 体 化 、 多 元 化 的 大 数据 处 理 体系 。 

在 任何 规模 的 数据 计算 中 ，Spark 在 性 能 和 扩展 性 上 都 更 具 优 势 。 

(1) Hadoop 之 父 Doug Cutting 指出 : Use of MapReduce engine for Big Data projects will 
decline, replaced by Apache Spark 〈 大 数据 项 目的 MapReduce 引擎 的 使 用 将 下 降 ， 由 Apache 
Spark 取代 。) 

(2) Hadoop 商业 发 行 版 本 的 市 场 领 导 者 Cloudera、HortonWorks、MapR 纷纷 转投 Spark， 
并 把 Spark 作为 大 数据 解决 方案 的 首选 和 核心 计算 引擎 。 

2014 年 的 Sort Benchmark 测试 中 ，Spark 秒杀 Hadoop, 在 使 用 十 分 之 一 计算 资源 的 情况 

下 ， 相 同 数据 的 排序 上 ，Spark 比 MapReduce 快 3 倍 ! 在 没有 官方 PB 排序 对 比 的 情况 下 ， 
首次 将 Spark 推 到 了 1PB 数据 〈 十 万 亿 条 记录 ) 的 排序 ， 在 使 用 190 个 节点 的 情况 下 ， 工 作 
负载 在 4 小 时 内 完成 ， 同 样 远 超 雅虎 之 前 使 用 3800 台 主 机 耗 时 16 个 小 时 的 记录 。 

2015 年 6 月 ，Spark 最 大 的 集群 来 自 腾讯 一 一 8000 个 节点 ， 单 个 Job 最 大 分 别 是 阿里 巴 
巴 和 Databricks 一 一 1PB， 震 撼 人 心 ! 同时 ，Spark 的 Contributor 比 2014 年 涨 了 3 倍 ， 达 到 
730 人 ; 总 代码 行 数 也 比 2014 年 涨 了 2 倍 多 ,达到 40 万 行 。IBM 于 2015 年 6 月 承诺 大 力 推 
进 Apache Spark 项 目 ， 并 称 该 项 目 为 : 以 数据 为 主导 的 ， 未 来 十 年 最 重要 的 新 的 开源 项 目 。 
这 一 承诺 的 核心 是 将 Spark 嵌入 IBM 业内 领先 的 分 析 和 商务 平台 , 并 将 Spark 作为 一 项 服务 ， 
在 IBMBluemix 平台 上 提供 给 客户 。IBM 还 将 投入 超过 3500 名 研究 和 开发 人 员 在 全 球 10 余 
个 实验 室 开展 与 Spark 相关 的 项 目 ， 并 将 为 Spark 开源 生态 系统 无 偿 提 供 突破 性 的 机 器 学 习 
技术 一 一 IBM SystemML。 同 时 ，IBM 还 将 培养 超过 100 万 名 Spark 数据 科学 家 和 数据 工 
程 师 。 

2016 年 ， 在 有 “计算 界 奥 运 会 ”之 称 的 国际 著名 Sort Benchmark 全 球 数据 排序 大 赛 中 ， 
由 南京 大 学 计算 机 科学 与 技术 系 PASA 大 数据 实验 室 、 阿 里 巴巴 和 Databricks 公司 组 成 的 参 
赛 团队 NADSort， 以 144 美元 的 成 本 完成 100TB 标准 数据 集 的 排序 处 理 ， 创 下 了 每 TB 数据 
排序 1.44 美元 成 本 的 最 新 世界 纪录 ， 比 2014 年 夺 得 冠军 的 加 州 大 学 圣地 亚 哥 分 校 TritonSort 
团队 每 TB 数据 4.51 美元 的 成 本 降低 了 近 70%, 而 这 次 比赛 依旧 使 用 Apache Spark 大 数据 计 
算 平台 ， 在 大 规模 并 行 排序 算法 以 及 Spark 系统 底层 进行 了 大 量 的 优化 ， 以 尽 可 能 提高 排序 
计算 性 能 并 降低 存储 资源 开销 ， 确 保 最 终 赢 得 比赛 。 

在 Full Stack 理想 的 指引 下 ，Spark 中 的 Spark SQL、SparkStreaming、MLLib、GraphX、 
了 R 五 大 子 框架 和 库 之 间 可 以 无 颖 地 共享 数据 和 操作 ， 这 不 仅 打造 了 Spark 在 当今 大 数据 计算 
领域 其 他 计算 框架 都 无 可 匹敌 的 优势 ， 而 且 使 得 Spark 正在 加 速成 为 大 数据 处 理 中 心 首选 通 
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用 计算 平台 ， 而 Spark 商业 案例 和 性 能 优化 必 将 成 为 接 下 来 的 重 中 之 重 ! 

本 书 根据 王家 林 老 师 亲 授课 程 及 结合 众多 大 数据 项 目 经 验 编写 而 成 ， 其 中 王家 林 、 段 智 
华 编写 了 本 书 近 90% 的 内 容 ， 具 体 编写 章节 如 下 : 

第 3 章 Spark 的 灵魂 : RDD 和 DataSet; 

第 4 章 Spark Driver 启动 内 幕 剖析 ; 

第 5 章 Spark 集群 启动 原理 和 源码 详解 ; 

第 6 章 Spark Application 提交 给 集群 的 原理 和 源码 详解 ; 

第 7 章 Shuffle 原理 和 源码 详解 ; 

第 8 章 Job 工作 原理 和 源码 详解 ; 

第 9 章 Spark 中 Cache 和 checkpoint 原理 和 源码 详解 ; 

第 10 章 Spark 中 Broadcast 和 Accumulator 原理 和 源码 详解 ; 

第 11 章 Spark 与 大 数据 其 他 经 典 组 件 整 合 原理 与 实战 ; 

第 12 章 Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 ; 

第 13 章 Spark 2.2 实战 之 Dataset 开发 实战 企业 人 员 管理 系统 应 用 案例 ; 

第 14 章 Spark 商业 案例 之 电 商 交互 式 分 析 系 统 应 用 案例 ; 

第 15 章 ”Spark 商业 案例 之 NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 案例 ; 

第 16 章 电 商 广告 点 击 大 数据 实时 流 处 理 系统 案例 ; 

第 17 章 Spark 在 通信 运营 商 生 产 环境 中 的 应 用 案例 ; 

第 18 章 使 用 Spark GraphX 实现 婚恋 社交 网 络 多 维度 分 析 案 例 ; 

第 23 章 Spark 集群 中 Mapper 端 、Reducer 端 内 存 调 优 ; 

第 24 章 使 用 Broadcast 实现 Mapper 端 Shuffle 聚合 功能 的 原理 和 调 优 实战 ; 

第 25 章 使 用 Accumulator 高 效 地 实现 分 布 式 集群 全 局 计数 器 的 原理 和 调 优 案例 ; 

第 27 章 Spark 五 大 子 框架 调 优 最 佳 实践 ; 

第 28 章 Spark 2.2.0 新 一 代 钨 丝 计 划 优化 引擎 ; 

第 30 章 Spark 性 能 调 优 之 数据 倾斜 调 优 一 站 式 解决 方案 原理 与 实战 

第 31 章 Spark 大 数据 性 能 调 优 实战 专业 之 路 。 

其 中 ， 段 智 华 根据 自身 多 年 的 大 数据 工作 经 验 对 本 书 的 案例 等 部 分 进行 了 扩展 。 

除 上 述 章 节 外 ， 剩 余 内 容 由 夏阳 、 郑 采 铀 、 产 恒 伟 三 位 作者 根据 王家 林 老 师 的 大 数据 授 
课 内 容 而 完成 。 

在 阅读 本 书 的 过 程 中 ， 如 发 现任 何 问题 或 有 任何 疑问 ， 可 以 加 入 本 书 的 阅读 群 (QQ: 
418110145) 讨论 ,会 有 专人 答疑 。 同 时 ， 该 群 也 会 提供 本 书 所 用 案例 源码 及 本 书 的 配套 学 习 
视频 。 

如 果 读 者 想 要 了 解 或 者 学 习 更 多 大 数据 相关 技术 ， 可 以 关注 DT 大 数据 梦 工 厂 微 信 公 众 
号 DT_Spark， 也 可 以 通过 YY 客户 端 登录 68917580 永久 频道 直接 体验 。 
王家 林 老 师 的 新 浪 微 博 是 http:Wweibo.conyilovepains/ 欢迎 大 家 在 微 博 上 与 作者 进行 
互动 。 











1 于 时 间 仓 促 ， 书 中 难免 存在 不 妥 之 处 ， 请 读者 谅解 ， 并 提出 宝贵 意见 。 
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电光 石 火 间 体验 Spark 2.2 开发 实战 
通过 RDD 实战 电影 点 评 系统 入 门 及 源码 阅读 -… 
1.1.1 Spark 核心 概念 图 解 
1.1.2 通过 RDD 实战 电影 点 评 系统 案例 
通过 DataFrame 和 DataSet 实战 电影 点 评 系统 - 
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Spark 的 灵魂 : RDD 和 DataSet 
为 什么 说 RDD 和 DataSet 是 Spark 的 灵魂 … 各 
3.1.1 RDD 的 定义 及 五 大 特性 剖析 -7 30 
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Spark 2.2.X 中 Shuffle 中 SortShuffleWriter 排序 源码 内 幕 解密 
Spark 2.2.X 中 Sort Shuffle 中 timSort 排序 源码 具体 实现 
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第 1 章 电光 石 火 间 体验 Spark 2.2 开发 实战 


本 章 首 先 通过 一 个 电影 点 评 系统 实战 案例 来 体验 一 下 Spark 2.2 的 程序 代码 特点 。 在 第 
1.1 节 中 ， 我 们 将 使 用 弹性 分 布 式 数据 库 (Resilient Distributed Datasets，RDD ) 的 方式 来 编 
写 Spark 最 基本 的 程序 代码 ， 而 在 第 1.2 节 中 ， 我 们 使 用 DataFrame、DataSet 来 感受 另 一 种 
更 易 用 的 程序 代码 风格 。 














1.1 通过 RDD 实战 电影 点 评 系统 入 门 及 源码 阅读 


日 常 的 数据 来 源 有 很 多 渠道 ， 如 网 络 息 虫 、 网 页 埋 点 、 系 统 日 志 等 。 下 面 的 案例 中 使 用 
的 是 用 户 观看 电影 和 点 评 电影 的 行为 数据 ， 数 据 来 源 于 网 络 上 的 公开 数据 ， 共 有 3 个 数据 文 
件 : uers.dat、ratings.dat 和 movies.dat。 

其 中 ，uers.dat 的 格式 如 下 : 


1. UserID::Gender::Age::Occupation::Zip-code 


这 个 文件 里 共有 6040 个 用 户 的 信息 ， 每 行 中 用 “::” 隔 开 的 详细 信息 包括 ID、 人 性 别 下、 
M 分 别 表示 女性 、 男 性 ) 、 年 龄 〈 使 用 7 个 年 龄 段 标记 ) 、 职 业 和 邮编 。 

ratings.dat 的 格式 如 下 : 

1. UserID::MovieID::Rating::Timestamp 


这 个 文件 记录 的 是 评分 信息 ， 即 用 户 DD、 电 影 DD、 评分 (满分 是 5 分 ) 和 时 间 戳 。 
movies.dat 的 格式 如 下 : 


1. MovieID::Title::Genres 


这 个 文件 记录 的 是 电影 信息 ， 即 电影 ID、 电 影 名 称 和 电影 类 型 。 
1.1.1 Spark 核心 概念 图 解 


进入 到 案例 实战 前 ， 首 先 来 看 几 个 至 关 重 要 的 概念 ， 这 些 概 念 承载 着 Spark 集群 运转 和 
程序 运行 的 重要 使 命 。Spark 运行 架构 图 如 图 1-1 所 示 。 

Master (图 1-1 中 的 Cluster Manager) : 就 像 Hadoop 有 NameNode 和 DataNode 一 样 ， 
Spark 有 Master 和 Worker。Master 是 集群 的 领导 者 ， 负 责 管理 集群 资源 ， 接 收 Client 提交 的 
作业 ， 以 及 向 Worker 发 送 命令 。 

Worker (图 1-1 中 的 Worker Node) : 集群 中 的 Worker， 执 行 Master 发 送 的 指令 ， 来 具 
体 分 配 资源 ， 并 在 这 些 资源 中 执行 任务 。 

Driver: 一 个 Spark 作业 运行 时 会 启动 一 个 Driver 进程 ， 也 是 作业 的 主 进程 ， 负 责 作 业 
的 解析 、 生 成 Stage， 并 调度 Task 到 Executor 上 。 
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Executor: 真正 执行 作业 的 地 方 。Executor 分 布 在 集群 中 的 Worker 上 ， 每 个 Executor 接 
收 Driver 的 命令 来 加 载 和 运行 Task， 一 个 Executor 可 以 执行 一 到 多 个 Task。 


Worker Node 











Executor 














Driver Program 


wc | 


| 


Cluster Manager 
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图 1-1 Spark 运行 架构 图 


SparkContext: 是 程序 运行 调度 的 核心 ， 由 高 层 调度 器 DAGScheduler 划分 程序 的 每 个 阶 
段 ,底层 调度 器 TaskScheduler 划分 每 个 阶段 的 具体 任务 。SchedulerBackend 管理 整个 集群 中 
为 正在 运行 的 程序 分 配 的 计算 资源 Executor。 

DAGScheduler: 负责 高 层 调 度 ， 划 分 stage 并 生成 程序 运行 的 有 向 无 环 图 。 

TaskScheduler: 负责 具体 stage 内 部 的 底层 调度 ， 有 具体 task 的 调度 、 容 错 等 。 

Job: (正在 执行 的 叫 ActiveJob) 是 Top-level 的 工作 单位 ， 每 个 Action 算 子 都 会 触发 一 
次 Job， 一 个 Job 可 能 包含 一 个 或 多 个 Stage。 

Stage: 是 用 来 计算 中 间 结 果 的 Tasksets。Tasksets 中 的 Task 逻辑 对 于 同一 个 RDD 内 的 
不 同 partition 都 一 样 。Stage 在 Shuffle 的 地 方 产 生 ， 此 时 下 一 个 Stage 要 用 到 上 一 个 Stage 的 
全 部 数据 ， 所 以 要 等 到 上 一 个 Stage 全 部 执行 完 才能 开始 。Stage 有 两 种 : ShuffleMapStage 
和 ResultStage， 除 了 最 后 一 个 Stage 是 ResultStage 外 ， 其 他 Stage 都 是 ShuffleMapStage。 
ShuffleMapStage 会 产生 中 间 结 果 ， 以 文件 的 方式 保存 在 集群 里 ，Stage 经 常 被 不 同 的 Job 共 
享 ， 前 提 是 这 些 Job 重用 了 同一 个 RDD。 

Task: 任务 执行 的 工作 单位 ,每 个 Task 会 被 发 送 到 一 个 节点 上 , 每 个 Task 对 应 RDD 的 
一 个 partition。 

RDD: 是 不 可 变 的 、Lazy 级 别 的 、 粗 粒度 的 (数据 集 级 别 的 而 不 是 单个 数据 级 别 的) 数 
据 集 合 ， 包 含 了 一 个 或 多 个 数据 分 片 ， 即 partition。 

另外 ，Spark 程序 中 有 两 种 级 别 的 算 子 :Transformation 和 Action。Transformation 算 子 
会 由 DAGScheduler 划分 到 pipeline 中 ， 是 Lazy 级 别 的 不 会 触发 任务 的 执行 ，Action 算 子 会 
触发 Job 来 执行 pipeline 中 的 运算 。 

介绍 完 上 面 的 关键 概念 ， 下 面 开始 进入 到 程序 编写 阶段 。 

首先 写 好 Spark 程序 的 固定 框架 , 以 便于 在 处 理 和 分 析 数 据 的 时 候 专 注 于 业务 逻辑 本 身 。 

创建 一 个 Scala 的 object 类 ， 在 main 方法 中 配置 SparkConf 和 SparkContext， 这 里 指定 
程序 在 本 地 运行 ， 并 且 把 程序 名 字 设 置 为 “RDD_Movie_Users_Analyzer”。 

RDD_Movie_Users_Analyzer 代码 如 下 。 

:I Val conf = new SparkConf() .setMaster ("local [*]") 


2. .setAppName ("RDD Movie Users Analyzer") 
六 2 区 和 
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*Spark 2.0 引入 SparkSession 封装 了 SparkContext 和 SQLContext， 并 且 会 在 
*builder 的 getOrCreate 方法 中 判断 是 否 有 符合 要 求 的 SparkSession 存在 ， 有 则 使 用 ， 
* 没 有 则 进行 创建 

本 

val spark = SparkSession.builder.config(conf) .getOrCreate () 


4 

5. // 获 取 SparkSession 的 SparkContext 

6. val sc = spark.sparkContext 

7. // 把 Spark 程序 运行 时 的 日 志 设 置 为 warn 级 别 ， 以 方便 查看 运行 结果 

8 sc.setLogLevel ("warn") 

9. // 把 用 到 的 数据 加 载 进来 转换 为 RDD， 此 时 使 用 sc .textFile 并 不 会 读 取 文件 , 而 是 标记 了 有 
// 这 个 操作 ， 遇 到 Action 级 别 算 子 时 才 会 真正 去 读 取 文件 

10. val usersRDD = sc.textFile(dataPath + "users.dat") 

11. val moviesRDD = sc.textFile(dataPath + "movies.dat") 

12. val ratingsRDD = sc.textFile(dataPath + "ratings.dat") 

13. /** 具 体 数据 处 理 的 业务 逻辑 */ 


14. // 最 后 关闭 SparkSession 
15." Spark.SEop 


1.1.2 通过 RDD 实战 电影 点 评 系 统 案例 


首先 我 们 来 写 一 个 案例 计算 ， 并 打印 出 所 有 电影 中 评分 最 高 的 前 10 个 电影 名 和 平均 
评分 。 
第 一 步 : 从 ratingsRDD 中 取出 MovieID 和 rating, 从 moviesRDD 中 取出 MovieID 和 Name， 
如 果 后 面 的 代码 重复 使 用 这 些 数 据 ， 则 可 以 把 它们 缓存 起 来 。 首 先 把 使 用 map 算 子 上 面 的 
RDD 中 的 每 一 个 元 素 〈 即 文件 中 的 每 一 行 ) 以 “: : ”为 分 隔 符 进行 拆 分 ， 然 后 再 使 用 map 
算 子 从 拆 分 后 得 到 的 数组 中 取出 需要 用 到 的 元 素 ， 并 把 得 到 的 RDD 缓存 起 来 。 
println ("所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 :") 
val movieInfo = moviesRDD.map( .split("::")) .map(x => (x(0), x(1))).cache!() 


加 
有 5 
3. val ratings = ratingsRDD.map( .split("::")) 
4. .map(x => (x(0), x(1), x(2))).cache() 


第 二 步 : 从 ratings 的 数据 中 使 用 map 算 子 获取 到 形 如 (movieID,(rating,1)) 格式 的 RDD， 


然后 使 用 reduceByKey 把 每 个 电影 的 总 评分 以 及 点 评 人 数 算出 来 。 
1. val moviesAndRatings = ratings.map(x => (x. 2, (x. 3.toDouble, 1))) 
Fa .reduceByKey ((x, y) => (x. 1 + y. 1, x. 2 + y. 2)) 


此 时 得 到 的 RDD 格式 为 (movieID,(Sum(ratings),Count(ratings))) 。 
第 三 步 : 把 每 个 电影 的 Sum(ratings) 和 Count(ratings) 相 除 ， 得 到 包含 了 电影 ID 和 平均 评 
分 的 RDD: 


1. valavgRatings=moviesAndRatings.map (x=> (x. 1,x. 2. 1.toDouble /x. 2. 2)) 


第 四 步 : 把 avgRatings 与 movieInfo 通过 关键 字 (key) 连接 到 一 起 , 得 到 形 如 (movieID， 
(MovieName,AvgRating)) 的 RDD, 然后 格式 化 为 (AvgRating,MovieName) ， 并 按照 key (也 
就 是 平均 评分 ) 降序 排列 ， 最 终 取出 前 10 个 并 打印 出 来 。 

1. avgRatings.join (movieInfo) .map(item => (item. 2. 1,item. 2. 2)) 


办 过 -sortByKey (false) .take (10) 
< 全 .foreach (record => println (record. 2+" 评 分 为 : strecnrdeel)y 
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图 1-2 评分 最 高 电影 运行 结果 


接 下 来 我 们 来 看 另外 一 个 功能 的 实现 : 分 析 最 受 男性 喜爱 的 电影 Top10 和 最 受 女性 喜爱 
的 电影 Top10。 

首先 来 分 析 一 下 : 单 从 ratings 中 无 法 计算 出 最 受 男性 或 者 女性 喜爱 的 电影 Top10， 因 为 
该 RDD 中 没有 Gender 信息 ， 如 果 需 要 使 用 Gender 信息 进行 Gender 的 分 类 ， 此 时 一 定 需 要 
聚合 。 当 然 ， 我 们 力求 聚合 使 用 的 是 mapjoin (分 布 式 计算 的 一 大 痛 点 是 数据 倾斜 ，map 端的 
join 一 定 不 会 数据 倾斜) ， 这 里 是 否 可 使 用 mapjoin? 不 可 以 ， 因 为 map 端的 join 是 使 用 
broadcast 把 相对 小 得 多 的 变量 广播 出 去 ， 这 样 可 以 减少 一 次 shuffle， 这 里 ， 用 户 的 数据 非常 
多 ， 所 以 要 使 用 正常 的 join。 

Ji: Val usersGender = usersRDD.map(_ .split("::")) .map(x => (x(0), x(1))) 

val genderRatings = ratings.map(x => (x. 1, (x. 1, x. 2, x. 3))) 


Es 
3. .join(usersGender) .cache () 
4. genderRatings .take (10) .foreach (Println) 





使 用 join 连接 ratings 和 users 之 后 ， 对 分 别 过 滤 出 男性 和 女性 的 记录 进行 处 理 : 


1. val maleFilteredRatings = genderRatings 

2. .filter(x => x. 2. 2.equals("M")) .map(x => x. 2. 1) 
3. val femaleFilteredRatings = genderRatings 

4. .filter(x => x. 2. 2.equals("F")).map(x => x. 2. 1) 


接 下 来 对 两 个 RDD 进行 处 理 ， 处 理 逻 辑 和 上 面 的 案例 相同 ， 最 终 打 印 出 来 的 结果 分 别 
如 图 1-3 和 图 1-4 所 示 : 
所 有 电影 中 最 受 男性 喜爱 的 电影 Top10 业务 代码 如 下 。 


1. ”println ("所 有 电影 中 最 受 男性 喜爱 的 电影 Top10:") 

2 maleFilteredRatings.map(x => (x. 2, (x._3.toDouble, 1))) 
| -TeduceByKey({(x; YY => (x 1 + y 1 xX» 2 + Y: 2) 
.maptx = (x lx 2 LtoDouble/ x 2 2)) 

5. .join(movieInfo) 

6 .map (item => (item. 2. 1,item. 2. 2)) 

wh .sortByKey (false) .take (10) 

8 .foreach (record => println (record. 2+" 评 分 为 : "+record._1)) 


图 1-3 最 受 男性 喜爱 的 电影 运行 结果 
所 有 电影 中 最 受 女性 喜爱 的 电影 Top10 业务 代码 如 下 。 


println ("所 有 电影 中 最 受 女 性 喜爱 的 电影 Top10:") 

femaleFilteredRatings.map(x => (x. 2, (x. 3.toDouble, 1))) 
rodiceByKey( (x Vy => (x 1 ty Ll, x 2 Ty. 2)) 

-maplx => (x 1.x 2 1.toDouble / x 22)) oin(movielInfo) 

-map (item => (item. 2. 1,item. 2. 2)) .sortByKey(false) .take(10) 

.foreach (record => println (record._ 2+" 评 分 为 : rocorde TN 
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图 1-4 最 受 女性 喜爱 的 电影 运行 结果 





在 现实 业务 场景 中 ， 二 次 排序 非常 重要 ， 并 且 经 常 遇 到 。 下 面 来 模拟 一 下 这 些 场景 ， 实 
现 对 电影 评分 数据 进行 二 次 排序 , 以 Timestamp 和 Rating 两 个 维度 降序 排列 , 值得 一 提 的 是 ， 
Java 版 本 的 二 次 排序 代码 非常 烦琐 ， 而 使 用 Scala 实现 就 会 很 简捷 ， 首 先 我 们 需要 一 个 继承 
自 Ordered 和 Serializable 的 类 。 


oamwm 必 wm 


加 oo~awm 必 wh 





class SecondarySortKey (val first: Double, val second: Double) 
extends Ordered[SecondarySortKey] with Serializable { 
// 在 这 个 类 中 重 写 compare 方法 
override def compare (other: SecondarySortKey): Int = 
// 既 然 是 二 次 排序 ， 那 么 首先 要 判断 第 一 个 排序 字段 是 否 相等 ， 如 果 不 相等 就 直接 排序 
a (tunis tirst = otheor firet T= 0) 
(this.first - other.first) .toInt 
} else { 
// 如 果 第 一 个 字段 相等 ， 则 比较 第 二 个 字段 ， 若 想 实现 多 次 排序 ， 也 可 以 按照 这 个 模式 继 
// 续 比较 下 去 
if (this.second - other.second > 0) 1{ 
Math.ceil (this.second - other.second) .toInt 
} else if (this.second - other.second < 0) { 
Math.floor (this.second - other.second) .toInt 
} else { 
(this.second - other.second) .toInt 
} 
| 
} 
} 


然后 再 把 RDD 的 每 条 记录 里 想 要 排序 的 字段 封装 到 上 面 定 义 的 类 中 作为 key, 把 该 条 记 


录 整 体 作 为 value。 





Po~awm 必 wm 


© 


println ("对 电影 评分 数据 以 Timestamp 和 Rating 两 个 维度 进行 二 次 降序 排列 :") 
val pairWithSortkey = ratingsRDD.map(line => { 
val splited = line.split("::") 
(new SecondarySortKey (splited(3) .toDouble, splited(2) .toDouble), line) 
} 
// 直 接 调用 sortByKey， 此 时 会 按照 之 前 实现 的 compare 方法 排序 
val sorted = pairWithSortkey.sortByKey (false) 


val sortedResult = sorted.map (sortedline => sortedline. 2) 


. SortedResult.take (10) .foreach (Println) 


取出 排序 后 的 RDD 的 value， 此 时 这 些 记 录 已 经 是 按照 时 间 戳 和 评分 排 好 序 的 ， 最 终 打 
印 出 的 结 


.6° 


填 果 如 图 1-5 所 示 ， 从 图 中 可 以 看 到 已 经 按照 tmestamp 和 评分 降序 排列 了 。 





图 1-5 电影 系统 二 次 排序 运行 结果 
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1.2 通过 DataFrame 和 DataSet 实战 电影 点 评 系统 


DataFrameAPI 是 从 Spark 1.3 开始 就 有 的 , 它 是 一 种 以 RDD 为 基础 的 分 布 式 无 类 型 数据 
集 ， 它 的 出 现 大 幅度 降低 了 普通 Spark 用 户 的 学 习 门槛 。 

DataFrame 类 似 于 传统 数据 库 中 的 二 维 表格 。DataFrame 与 RDD 的 主要 区 别 在 于 ， 前 者 
带 有 schema 元 信息 , 即 DataFrame 表示 的 二 维 表 数 据 集 的 每 一 列 都 带 有 名 称 和 类 型 。 这 使 得 
Spark SQL 得 以 解析 到 具体 数据 的 结构 信息 , 从 而 对 DataFrame 中 的 数据 源 以 及 对 DataFrame 
的 操作 进行 了 非常 有 效 的 优化 ， 从 而 大 幅 提升 了 运行 效率 。 

DataSetAPI 是 从 1.6 版 本 提出 的 ， 在 Spark 2.2 的 时 候 ，DataSet 和 DataFrame 趋 于 稳定 ， 
可 以 投入 生产 环境 使 用 。 与 DataFrame 不 同 的 是 ，DataSet 是 强 类 型 的 ， 而 DataFrame 实际 上 
就 是 DataSet[Row] (也 就 是 Java 中 的 DataSet<Row>) 。 

是 Lazy 级 别 的 ，Transformation 级 别 的 算 子 作用 于 DataSet 会 得 到 一 个 新 的 
DataSet。 当 Action 算 子 被 调用 时 ，Spark 的 查询 优化 器 会 优化 Transformation 算 子 形成 的 罗 
辑 计 划 ， 并 生成 一 个 物理 计划 ， 该 物理 计划 可 以 通过 并 行 和 分 布 式 的 方式 来 执行 。 

反观 RDD, 由 于 无 从 得 知 其 中 数据 元 素 的 具体 内 部 结构 , 故 很 难 被 Spark 本 身 自行 优化 ， 
对 于 新 手 用 户 很 不 友好 , 但 是 , DataSet 底层 是 基于 RDD 的 ,所 以 最 终 的 优化 尽头 还 是 对 RDD 
的 优化 ， 这 就 意味 着 优化 引擎 不 能 自动 优化 的 地 方 ， 用 户 在 RDD 上 可 能 有 机 会 进行 手动 
优化 。 





1.2.1 通过 DataFrame 实战 电影 点 评 系统 案例 


现在 我 们 通过 实现 几 个 功能 来 了 解 DataFrame 的 具体 用 法 。 先 来 看 第 一 个 功能 : 通过 
DataFrame 实现 某 部 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 人 。 


println ("功能 一 : 通过 DataFrame 实现 某 部 电影 观看 者 中 男性 和 女性 不 同年 龄 人 数 ") 
// 首 先 把 Users 的 数据 格式 化 , 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
val schemaForUsers = StructType( 
"UserID: :Gender: :Age: :OccupationID::Zip-code".split("::") 
.map (column => StructField(column, StringType, true))) 
// 然 后 把 我 们 的 每 一 条 数据 变 成 以 Row 为 单位 的 数据 
Val usersRDDRows = usersRDD 
snap ll Coplit(t es") 
.map (line => 
. Row(line(0) .trim,line(1) .trim,line(2) .trim,line(3) .trim,line(4) .trim)) 
. // 使 用 SparkSession 的 createDataFrame 方法 , 结合 Row 和 StructType 的 元 数据 信息 
// 基 于 RDD 创建 DataFrame， 这 时 RDD 就 有 了 元 数据 信息 的 描述 
12. val usersDataFrame = spark.createDataFrame (usersRDDRows, schemaForUsers) 
13. // 也 可 以 对 StructType 调用 add 方法 来 对 不 同 的 StructField 赋予 不 同 的 类 型 
14. val schemaforratings = StructType ("UserID::MovieID".split("::"). 
15. map(column => StructField(column, StringType, true))) 
16. .add ("Rating", DoubleType, true) 
17. .add ("Timestamp",StringType, true) 
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val ratingsRDDRows = ratingsRDD 

mp splill my) 

-map (line => 

Row (line(0) .trim,line(1). trim,line(2) .trim.toDouble,1line(3) .trim)) 
val ratingsDataFrame = spark.createDataFrame (ratingsRDDRows, 
schemaforratings) 

// 接 着 构建 movies 的 DataFrame 

val schemaformovies = StructType ("MovieID::Title::Genres".split("::") 
.map (column => StructField(column, StringType, true))) 

val moviesRDDRows = moviesRDD 

mp lt op Lt 

.map (line => Row(line(0) .trim,line(1) .trim,line(2) .trim)) 

Val moviesDataFrame = spark.createDataFrame (moviesRDDRows, 
schemaformovies) 


// 这 里 能 够 直接 通过 列 名 MovieID 为 1193 过 滤 出 这 部 电影 ， 这 些 列 名 都 是 在 上 面 指定 的 
ratingsDataFrame.filter(s" MovieID = 1193") 


//Join 的 时 候 直接 指定 基于 UserID 进行 Join， 这 相对 于 原生 的 RDD 操作 而 言 更 加 方便 快捷 
.join(usersDataFrame, "UserID" 

// 直 接 通过 元 数据 信息 中 的 Gender 和 Age 进行 数据 的 筛选 

.Select("Gender"，"Rge") 

// 直 接 通过 元 数据 信息 中 的 Gender 和 Age 进行 数据 的 groupBy 操作 

.groupBy ("Gender", "Age") 

// 基 于 groupBy 分 组 信息 进行 count 统计 操作 ， 并 显示 出 分 组 统计 后 的 前 10 条 信息 
.count () .show (10) 


最 终 打 印 结果 如 图 1-6 所 示 ， 类 似 一 张 普通 的 数据 库 表 。 





图 1-6 电影 观看 者 中 男性 和 女性 人 数 


上 面 案 例 中 的 代码 无 论 是 从 思路 上 , 还 是 从 结构 上 都 和 SQL 语句 十 分 类 似 ,下 面 通过 写 
SQL 语句 的 方式 来 实 现 上 面 的 案例 。 


Ys 


Ww 


println ("功能 二 : 用 LocalTempView 实现 某 部 电影 观看 者 中 不 同性 别 不 同年 龄 分 别 有 多 少 
A ") 

// 既 然 使 用 SQL 语句 ， 那 么 表 肯 定 是 要 有 的 ， 所 以 需要 先 把 DataFrame 注册 为 临时 表 
ratingsDataFrame.createTempView ("ratings") 
usersDataFrame.createTempView ("users") 
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// 然 后 写 SQL 语句 ， 直 接 使 用 SparkSession 的 sql 方法 执行 SQL 语句 即 可 

val sql local = "SELECT Gender, Age, count(*) from users u join 
ratings as r on u.UserID = r.UserID where MovieID = 1193 group by Gender, 
Age" 

spark.sql(sql local) .show(10) 


这 样 我 们 就 可 以 得 到 与 上 面 案例 相同 的 结果 ， 这 对 写 SQL 比较 多 的 用 户 是 十 分 友好 的 。 











但 是 有 一 个 问题 需要 注意 , 这 里 调用 createTempView 创建 的 临时 表 是 会 话 级 别 的 ,会 话 结束 
时 这 个 表 也 会 消失 。 那 么 ， 怎 么 创建 一 个 Application 级 别 的 临时 表 呢 ? 可 以 使 用 
createGlobalTempView 来 创建 临时 表 ， 但 是 这 样 就 要 在 写 SQL 语句 时 在 表 名 前 面 加 上 
global temp， 例 如 : 


1 
次 
3 
4 


5 





ratingsDataFrame.createGlobalTempView ("ratings") 
usersDataFrame.createGlobalTempView ("users") 


val sql = "SELECT Gender, Age, count(*) from global temp.users u join 
global temp.ratings as r on u.UserID = r.UserID where MovieID = 1193 group 
by Gender, Age" 

spark.sql (sql) .show(10) 


第 一 个 DataFrame 案例 实现 了 简单 的 类 似 SQL 语句 的 功能 , 但 这 是 远 远 不 够 的 , 我 们 要 
引入 一 个 隐 式 转换 来 实现 复杂 的 功能 : 


ODP 


Se 





import spark.sqlContext.implicits._ 

ratingsDataFrame.select ("MovieID", "Rating") 

.groupBy ("MovieID") .avg ("Rating") 

// 接 着 我 们 可 以 使 用 “$” 符 号 把 引号 里 的 字符 串 转 换 成 列 来 实现 相对 复杂 的 功能 ， 例 如 ， 下 面 
// 我 们 把 avg (Rating) 作为 排序 的 字段 降序 排列 

.OrderBy ($"avg (Rating)".desc) .show(10) 


从 图 1-7 的 结果 可 以 看 到 , 求 平均 值 的 那 一 列 列 名 和 在 SQL 语句 里 使 用 函数 时 的 列 名 
样 变 成 了 avg(Rating)， 程 序 中 的 orderBy 里 传 入 的 列 名 要 和 这 个 列 名 一 致 ， 和 否则 会 报错 ， 提 
示 找 不 到 列 。 





图 1-7 电影 系统 SQL 运行 结果 


有 时 我 们 也 可 能 会 在 使 用 DataFrame 的 时 候 在 中 间 某 一 步 转换 到 RDD 里 操作 ， 以 便 实 
现 更 加 复杂 的 逻辑 。 下 面 来 看 一 下 DataFrame 和 RDD 的 混合 编程 。 


Iaw 心 wN 


ratingsDataFrame.select ("MovieID", "Rating") 
.groupBy ("MovieID") .avg ("Rating") 

// 这 里 直接 使 用 DataFrame 的 rdd 方法 转 到 RDD 里 操作 
-rdd.map (row =>(row(1), (row(0), row(1)))) 
-SortBy(_._1.tostring.toDouble, false) 

-map (tuple => tuple. 2) 
-Collect.take (10) .foreach (println) 
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1.2.2 通过 DataSet 实战 电影 点 评 系统 案例 





前 面 提 到 的 DataFrame 其 实 就 是 DataSet[Row]， 所 以 只 要 学 会 了 DataFrame 的 使 用 ， 就 


可 以 快速 接 入 DataSet， 只 不 过 在 创建 DataSet 的 时 候 要 注意 与 创建 DataFrame 的 方式 略 有 不 
同 。DataSet 可 以 由 DataFrame 转换 而 来 ， 只 需要 用 yourDataFrame.as[yourClass] 即 可 得 到 封 
装 了 yourClass 类 型 的 DataSet， 之 后 就 可 以 像 操 作 DataFrame 一 样 操作 DataSet 了 。 接 下 来 
我 们 讲 一 下 如 何 直 接 创建 DataSet， 因 为 DataSet 是 强 类 型 的 , 封装 的 是 具体 的 类 (DataFrame 


其 





装 了 Row 类 型 ) ， 而 类 本 身 可 以 视 作 带 有 Schema 的 ， 所 以 只 需要 把 数据 封装 进 具体 


的 类 ， 然 后 直接 创建 DataSet 即 可 。 





首先 引入 一 个 隐 式 转换 ， 并 创建 儿 个 caseClass 用 来 封装 数据 。 


import spark.implicits . 
case class User (UserID:String, Gender:String, Age:String, OccupationID: 
String, Zip Code:String) 
case class Rating(UserID:String, MovieID:String, Rating:Double, 
Timestamp:String) 
然后 把 数据 封装 进 这 些 Class: 
Val usersForDSRDD = usersRDD.map(_ .split("::")) .map(line => 
User (line (0) .trim, line (1) .trim, line (2) .trim, line (3) .trim, line (4) .trim)) 
最 后 直接 创建 DataSet: 
val usersDataSet = spark.createDataset [User] (usersForDSRDD) 
usersDataSet. show (10) 


电影 系统 运行 结果 如 图 1-8 所 示 ， 列 名 为 User 类 的 属性 名 。 下 面 使 用 同样 的 方法 创建 
ratingsDataSet 并 实现 一 个 案例 : 找 出 观看 某 部 电影 的 不 同性 别 不 同年 龄 的 人 数 。 
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val ratingsForDSRDD = ratingsRDD.map( -split("::")) .map(1ine => 
Rating (line (0) .trim,line(1) .trim,line(2) .trim.toDouble, line (3) .trim)) 
val ratingsDataSet = spark.createDataset (ratingsForDSRDD) 
// 下 面 的 实现 代码 和 使 用 DataFrame 方法 几乎 完全 一 样 (把 DataFrame 换 成 DataSet 即 可 ) 
ratingsDataSet.filter(s" MovieID = 1193") .join(usersDataSet, "UserID") 
.select ("Gender", "Age") .groupBy ("Gender", "Age") .count () 
.orderBy ($"Gender".desc, $"Age") .show() 


观看 电影 性 别 、 年 龄 统计 结果 如 图 1-9 所 示 。 


。10 。 





图 1-8 电影 系统 运行 结果 图 1-9 观看 电影 性 别 、 年 龄 统计 结果 
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当然 ， 也 可 以 把 DataFrame 和 DataSet 混 着 用 (这 样 做 会 导致 代码 混乱 ， 故 不 建议 这 样 
， 得 到 的 结果 完全 一 样 。 

最 后 根据 源码 ， 有 几 点 需要 补充 : 

RDD 的 cache 方法 等 于 MEMORY _ ONLY 级 别 的 persist， 而 DataSet 的 cache 方法 等 于 
MEMORY AND_ DISK 级 别 的 persist， 因 为 重新 计算 的 代价 非常 昂贵 。 如 果 想 使 用 其 他 级 别 
的 缓存 ， 可 以 使 用 persist 并 传 入 相应 的 级 别 。 








做 


_ 























RDD.scala 源码 : 

5 /** 

2 * 使 用 默认 的 存储 级 别 持久 化 RDD (`MEMORY ONLY `) - 
本 作 

“加 def cache () : this.type = persist() 
Dataset.scala 源码 : 

加 /** 

2 * 使 用 默认 的 存储 级 别 持久 化 DataSet (`MEMORY RND DISK.). 
= 于 

4. * @group basic 

要 * @since 1.6.0 

党 汉江 

es def cache(): this.type = persist() 


基于 DataSet 的 计算 会 像 SQL 一 样 被 Catalyst 引擎 解析 生成 执行 查询 计划 ， 然 后 执行 。 
我 们 可 以 使 用 explain 方法 来 查看 执行 计划 。 


1.3 Spark 2.2 源码 阅读 环境 搭建 及 源码 阅读 体验 


对 于 Spark 的 应 用 ， 仅 仅 会 使 用 其 API 来 编程 只 能 达到 初级 〈 助 理 ) 工程 师 或 中 级 〈 熟 
练 ) 工程 师 的 水 平 ， 而 学 会 调 优 则 可 以 让 你 进 阶 为 高 级 工程 师 。 那 么 ， 怎 么 成 为 顶尖 的 工程 
师 呢 ? 源码 ! 源码 毫 无 保留 地 展示 了 Spark 巧妙 的 实现 原理 和 严谨 的 工作 流程 ， 同 时 也 可 能 
暴露 出 了 Spark 的 缺陷 ， 它 不 仅 可 以 让 我 们 深入 地 理解 我 们 之 前 写 过 的 代码 的 每 一 行 的 背后 
隐藏 了 什么 ， 也 可 以 让 我 们 进一步 改造 Spark 来 更 加 完美 地 配合 我 们 的 业务 。 下 面 简 单 介绍 
一 下 源码 阅读 环境 的 搭建 。 

Spark 源码 是 使 用 Scala 语言 编写 的 ， 这 是 一 个 基于 JVM 的 语言 ， 与 Java 有 很 多 类 似 之 
处 ， 在 决定 读 源码 之 前 需 先 学 会 Scala。 

首先 ,准备 好 配置 了 Scala 2.11 和 Maven 的 集成 开发 环境 (这 里 以 IntelliJIDEA 为 例 ) ， 
然后 到 Spark 官网 (http://spark.apache.org/downloads.html) 下 载 并 解压 源码 ， 如 图 1-10 所 示 。 

Spark 源码 安装 包 解 压 之 后 , 打开 IDEA, 单 击 Import Project, 如 图 1-11 所 示 选 择 Maven 
方式 ， 然 后 单 击 Next 按钮 。 

出 现 图 1-12， 勾 选 自动 导入 Maven 项 目 ， 自 动 下 载 Source 和 Documentation， 在 右 下 
角 的 Environment settings 里 面 选择 要 使 用 的 Maven 和 Maven 配置 文件 。 接 着 单 击 Next 
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parK m Lightining-fast cluster computing 


Download Libraries- Documentation - Examples Community - Developers ~ 


Download Apache Spark™ 
1. Choose a Spark release: |220 (Jul 11 2017) * 
2 Choose a package type- | Source Code " 


3. Choose a download type: [Direct Downioad | 








4. Download Spark: spark-2 2.0.& 


5 Verify this release using the 2 2 0 signatures and checksums and project release KEYS 





Note: starting version 2.0, Spark Is built with Scala 2. 11 by default. Scala 2 .10 users should download the Spark source package and 


build with Sc port 





ala 2.10 8 








图 1-10 Spark 官网 下 载 示 意图 


Import Project 





图 1-11 Maven 的 方式 导入 源码 


import Project 





图 1-12 ”Maven 选项 示意 图 
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然后 选择 要 加 载 的 profile， 根 据 自 己 的 需要 勾 选 ， 然 后 一 直 单 击 Next 按钮 ， 直 到 出 现 
Finish。IEDA 打开 后 会 引入 源码 并 解析 pom 文件 开始 下 载 源码 需要 的 Jar 包 (建议 Maven 配 
置 文 件 的 仓库 选择 比较 快 的 镜像 ， 否 则 会 下 载 很 长 时 间 〉。 

最 后 把 每 个 源码 目录 下 面 的 /src/main/ 里 的 scala 文件 夹 选中 ， 在 右键 选项 里 选择 Mark 
Directory as : Sources Root, 如 图 1-13 所 示 。 

















图 1-13 Mark Sources Root 示意 图 


如 果 在 编写 程序 的 时 候 随时 查看 源码 ， 可 以 新 建 一 个 应 用 程序 ， 创 建 完 SparkSession 之 
后 ， 按 住 Ctrl 并 单 击 SparkSession， 在 右上 和 角 单 击 attachsources， 选 中 源码 目录 即 可 把 源码 关 
联 进来 。 

搭建 好 源码 环境 后 ， 可 根据 我 们 使 用 Spark 的 步骤 阅读 源码 。 

首先 ， 使 用 start-all.sh 启动 集群 。 在 sbin 目录 下 可 以 找到 这 个 脚本 ， 打 开 后 会 看 到 
start-master.sh 和 start-salves.sh 两 个 脚本 ， 前 者 会 引导 我 们 进入 Master 类 (在 IDEA 中 双击 
Shift， 输 入 Master， 打 开 Master.scala) ，Master 继承 自 RpcEndpoint， 所 以 直接 看 其 onStart 
方法 即 可 , 接着 跟踪 代码 就 可 以 明白 Master 的 启动 流程 。 在 start-salves.sh 脚本 里 最 终 会 引导 
我 们 进入 Worker 类 ， 同 样 可 以 直接 看 其 onStart 方法 。 

启动 完 集群 之 后 ， 接 着 提交 任务 。 在 bin 目录 下 有 一 个 spark-submit 文件 用 来 提交 程序 ， 
这 个 文件 会 引导 我 们 进入 SparkSubmit 类 ， 我 们 可 以 直接 看 它 伴生 类 里 的 main 方法 ,然后 可 
跟着 代码 一 步 一 步 阅读 。 

这 里 有 几 个 重点 : 资源 分 配 (Master 里 的 schedule 方法 )、DAGScheduler、 TaskScheduler、 
ScheduleBackend 以 及 Shuffle 等 。 











第 2 章 Spark 2.2 技术 及 原理 


Apache 官方 网 站 于 2017 年 7 月 11 日 发 布 了 Spark Release 2.2.0 版 本 .Apache Spark 2.2.0 
版 本 是 Spark 2.2 系列 上 的 第 3 个 版 本 。Spark 2.2.0 是 Spark 2.2 中 第 一 个 在 生产 环境 可 以 使 用 
的 版 本 ， 对 于 Spark 具有 里 程 碑 意义 。Spark 2.2.0 版 本 中 ，Structured Streaming 的 实验 性 标 
记 〈Experimental Tag) 已 经 被 移 除 ， 此 版 本 更 多 侧重 于 系统 的 可 用 性 〈Usability) 、 稳 定性 
(Stability) 以 及 代码 的 polish, 解决 了 1100 个 tickets。 此外, 只 要 安装 pyspark, 在 Spark 2.2.0 
版 本 中 ，pyspark 可 用 于 pypi。Spark 2.2.0 版 本 移 除 了 对 Java 7 以 及 Hadoop 2.5 及 其 之 前 版 
本 的 支持 ， 移 除了 对 Python 2.6 的 支持 。 

Apache Spark 2.2.0 版 本 的 一 些 新 变化 : 
Core and Spark SQL 核心 和 Spark SQL。 
Structured Streaming 结构 化 流 。 
MLlib 机 器 学 习 。 
SparkR SparkR 计算 。 
GraphX 图 计算 。 
Deprecations 弃 用 。 
Changes ofbehavior 行为 变化 。 
Known Issues 已 知 的 问题 。 
Credits 贡献 者 。 

如 无 特殊 说 明 ， 本 书 所 有 内 容 都 基于 最 新 最 稳定 的 Spark 2.2.0 版 本 的 源码 编写 ， 为 体现 
Spark 源码 的 演进 过 程 , 部 分 核心 源码 在 Spark 1.5.X、Spark 1.6.X、Spark 2.2.X 源码 的 基础 上 ， 
新 增 Spark 2.2.0 版 本 的 源码 ， 便 于 读者 系统 比 对 、 研 习 Spark 源码 。 
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2.1 Spark 2.2 综述 


Spark 2.0 中 更 新 发 布 了 新 的 流 处 理 框 架 (Structured Streaming) ; 对 于 API 的 更 新 , Spark 
2.0 版 本 API 的 更 新 主要 包括 DataFrame、DataSet、SparkSession、 累 加 器 API、Aggregator API 
等 API 的 变动 。 





2.1.1 连续 应 用 程序 


自从 Spark 得 到 广泛 使 用 以 来 ,其 流 处 理 框 架 Spark Streaming 也 逐渐 吸引 到 了 很 多 用 户 ， 
得 益 于 其 易 用 的 高 级 API 和 一 次 性 语义 ， 使 其 成 为 使 用 最 广泛 的 流 处 理 框 架 之 一 。 但 是 ， 我 
们 不 仅 需 要 流 处 理 来 构建 实时 应 用 程序 ， 很 多 时 候 我 们 的 应 用 程序 只 有 一 部 分 需要 用 到 流 处 
理 ， 对 于 这 种 应 用 程序 ，Databricks 公司 把 它 称 为 Continuous Application〈 实 时 响应 数据 的 端 
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到 端的 应 用 程序 ) ， 也 就 是 连续 的 应 用 程序 。 在 Continuous Application 中 有 许多 难点 ， 如 数 
据 交 互 的 完整 性 、 流 数据 与 离线 数据 的 结合 使 用 、 在 线 机 器 学 习 等 。 


Spark 2.0 最 





EE 人 磅 的 更 新 是 新 的 流 处 理 框架 





Structured Streaming。 它 允许 用 户 使 用 


DataFrame/DataSetAPI 编写 与 离线 批 处 理 几 乎 相同 的 代码 ， 便 可 以 作用 到 流 数据 和 静态 数据 
上 ， 引 擎 会 自动 增 量化 流 数据 计算 ， 同 时 保证 了 数据 处 理 的 一 致 性 ， 并 且 提 供 了 和 存储 系统 














的 事务 集成 。 


2.1.2 新 的 API 


在 Spark 2.0 版 本 的 API 中 ， 共 有 如 下 几 个 API 的 变动 : 

(1) 统一 了 DataFrame 和 DataSet。 现 在 DataFrame 不 再 是 一 个 独立 的 类 ， 而 是 作为 
DataSet[Row] 的 别名 定义 在 org.apache.spark.sql 这 个 包 对 象 中 。 

sql\package.scala 源码 如 下 : 


* 将 一 个 逻辑 计划 转换 为 零 个 或 多 个 SparkPlans。 这 个 API 是 查询 计划 实验 使 用 ， 不 是 为 
* Spark 稳定 发 行 版 设计 的 。 编 写 库 的 开发 者 应 该 考虑 使 用 [ [org.apache .spark.sql. 


I package object sql { 
2 
Sap/ 
* sources] ] 提 供 的 稳定 APIs 
4. */ 
加 @DeveloperApi 
6 @InterfaceStability.Unstable 
1 type Strategy = SparkStrategy 
8 
9 type DataFrame = Dataset [Row] 
了 


(2) 加 入 了 SparkSession， 用 于 替换 DataFrame 和 Dataset API 的 SQLContext 和 


HiveContext (这 两 


个 API 仍然 可 以 使 用 ) 。 


(3) 为 SparkSession 和 SparkSQL 加 入 一 个 新 的 ， 精 简 的 配置 参数 一 一 RuntimeConfig， 
用 来 设置 和 获得 与 SparkSQL 有 关 的 Spark 或 者 Hadoop 设置 。 
SparkSession.scala 源码 : 


Le/ 


Spark 运行 时 的 配置 接口 


置 。 当 获取 配置 值 时 ， 默 认 设置 值 在 SparkContext 里 


六 
六 
3 * ”这 是 用 户 可 以 获取 并 设置 所 有 Spark 和 Hadoop 的 接口 。 将 触发 Spark SQL 相关 的 配 
来 
来 


4. @since 2.0.0 
5 4 
Gs @transient lazy val conf: RuntimeConfig = new RuntimeConfig 


(sessionState.conf) 


(4) 更 简单 、 更 高 性 能 的 累加 器 API。 
(5) 用 于 DataSet 中 类 型 化 聚合 的 新 的 改进 的 Aggregator API。 


上 篇 ”内 核 解密 








2.2 Spark 2.2 Core 


本 节 讲 解 第 二 代 Tungsten 引擎 、SparkSession 和 累加 器 API 的 使 用 。 
2.2.1 第 二 代 Tungsten 引擎 


Spark 备 受 瞩目 的 原因 之 一 在 于 它 的 高 性 能 ，Spark 开发 者 为 了 保持 这 个 优势 ， 一 直 在 不 
断 地 进行 各 种 层次 的 优化 ， 其 中 最 令 人 兴奋 的 莫 过 于 钨 丝 计划 (Project Tungsten) ， 因 为 钨 
丝 计 划 的 提出 给 Spark 带 来 了 极 大 的 性 能 提升 ， 并 且 在 一 定 程度 上 引导 了 Spark 的 发 展 
方向 。 

Spark 是 使 用 Scala 和 Java 语言 开发 的 ， 不 可 避免 地 运行 于 JVM 之 上 。 当 然 ， 内 存 管 理 
也 是 依赖 于 JVM 的 内 存 管 理 机 制 ， 而 对 于 大 数据 量 的 基于 内 存 的 处 理 ，JVM 对 象 模型 对 内 
存 的 额外 开销 ， 以 及 频繁 的 GC 和 Full GC 都 是 非常 致命 的 问题 。 另 外 ， 随 着 网 络 带宽 和 磁 
盘 IO 的 不 断 提升 ， 内 存 和 CPU 又 重新 作为 性 能 瓶颈 受到 关注 ，JVM 对 象 的 序列 化 、 反 序 
列 化 带 来 的 性 能 损耗 吸 待 解决 。Spark 1.5 版 本 加 入 的 钨 丝 计 划 从 3 大 方面 着 手 解决 这 些 问题 : 

(1) 统一 内 存 管理 模型 和 二 进 制 处 理 (Binary Processing) 。 统 一 内 存 管 理 模型 代替 之 前 
基于 JVM 的 静态 内 存 管理 ， 引 入 Page 来 管理 堆 内 存 和 堆 外 内 存 (on-heap 和 off-heap) ， 并 
日 直接 操作 内 存 中 的 二 进 制 数据 ， 而 不 是 Java 对 象 ， 很 大 程度 上 摆脱 了 JVM 内 存 管 理 的 
限制 。 

(2) 基于 缓存 感知 的 计算 (Cache-aware Computation) 。Spark 内 存 读 取 操作 也 会 带 来 一 
部 分 性 能 损耗 ， 钨 丝 计划 便 设 计 了 缓存 友好 的 算法 和 数据 结构 来 提高 缓存 命中 率 ， 充 分 利用 
LUL2/L3 三 级 缓存 ， 大 幅 提高 了 内 存 读 取 速度 ， 进 而 缩短 了 内 存 中 整个 计算 过 程 的 时 间 。 

(3) 代码 生成 (Code Generation) 。 在 JVM 中 ， 所 有 代码 的 执行 由 解释 器 一 步 步 地 解释 
执行 ,， CodeGeneration 这 一 功能 则 在 Spark 运行 时 动态 生成 用 于 部 分 算 子 求 值 的 bytecode, 减 
少 了 对 基础 数据 类 型 的 封装 ， 并 且 缓 解 了 调用 虚 函 数 的 额外 开销 。 

Spark 2.0 升级 了 第 二 代 Tungsten 引擎 。 其 中 最 重要 的 一 点 是 把 CodeGeneration 作用 于 全 
阶段 的 SparkSQL 和 DataFrame 之 上 〈 即 全 阶段 代码 生成 Whole Stage Code Generation) ， 为 
常见 的 算 子 带 来 10 倍 左右 的 性 能 提升 ! 














2.2.2 SparkSession 


加 入 SparkSession， 取 代 原 来 的 SQLContext 和 HiveContext， 为 了 兼容 两 者 ， 仍 然 保 留 。 
SparkSession 使 用 方法 如 下 : 


SparkSession.builder() 
.master ("local") 
.appName ("Word Count") 
.config("spark.some.config.option", "some-value") 
-getOrCreate () 


MAODP 
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首先 获得 SparkSession 的 Builder， 然 后 使 用 Builder 为 SparkSession 设置 参数 ， 最 后 使 
用 getOrCreate 方法 检测 当前 线程 是 否 有 一 个 已 经 存在 的 Thread-local 级 别 的 SparkSession， 
如 果 有 ， 则 返回 它 ， 如 果 没 有 ， 则 检测 是 否 有 全 局 级 别 的 SparkSession， 有 ， 则 返回 ， 没 有 ， 
则 创建 新 的 SparkSession。 

在 程序 中 如 果 要 使 用 SparkContext， 调 用 sparkSession.sparkContext 即 可 。 在 程序 的 最 后 
我 们 需要 调用 sparkContext stop 方法 , 这 个 方法 会 调用 sparkContext.stop 来 关闭 sparkContext。 
从 Spark 2.0 开始 ，DataFrame 和 DataSet 既 可 以 容纳 静态 、 有 限 的 数据 ， 也 可 以 容纳 无 
限 的 流 数 据 ， 所 以 用 户 也 可 以 使 用 SparkSession 像 创 建 静态 数据 集 一 样 来 创建 流 式 数 据 集 ， 
并 且 可 以 使 用 相同 的 操作 算 子 。 这 样 ， 整 合 了 实时 流 处 理 和 离线 处 理 的 框架 ， 结 合 其 他 容错 、 
扩展 等 特性 就 形成 了 完整 的 Lambda 架构 。 











2.2.3 ”累加 器 API 


Spark 2.0 引入 了 一 个 更 加 简单 和 更 高 性 能 的 累加 器 API， 如 在 1.X 版 本 中 可 以 这 样 使 用 
累加 器 : 


1. // 定 义 累加 器 ， 这 里 直接 使 用 SparkContext 内 置 的 累加 器 ， 设 置 初始 值 为 0， 名 字 为 "My 


//Accumulator" 
Val accum = sc.accumulator(0, "My Accumulator") 
// 计 算 值 


sc.parallelize (Array(l, 2, 3, 4)).foreach(x => accum += x) 

// 获 取 累 加 器 的 值 ，(Executor 上 面 只 能 对 累加 器 进行 累加 操作 ， 只 有 Driver 才能 读 取 累 加 
// 器 的 值 ，Driver 读 取 值 的 时 候 会 把 各 个 Executor 上 存储 的 本 地 累加 器 的 值 加 起 来 ) ， 这 里 
// 的 结果 是 10 


6. accum.value 


在 Spark 2.X 版 本 里 使 用 SparkContext 里 内 置 的 累加 器 : 


1. // 与 Spark 1.X 不 同 的 是 ， 需 要 指定 累加 器 的 类 型 ， 目 前 SparkContext 有 Long 类 型 和 
//Double 类 型 的 累加 器 可 以 直接 使 用 (不 需要 指定 初始 值 》 

2. val accum = sc.longAccumulator ("My Accumulator") 

3. sc.parallelize(Array(l, 2, 3, 4)).foreach(x => accum.add(x)) 

4 print (accum.value) 


pOND 


只 使 用 SparkContext 里 内 置 的 累加 器 功能 肯定 不 能 满足 略微 复杂 的 业务 类 型 ， 此 时 我 们 
就 可 以 自 定义 累加 器 。 在 1.X 版 本 中 的 做 法 是 〈 下 面 是 官网 的 例子 ) : 


// 继 承 AccumulatorParam[Vector]， 返 回 类 型 为 Vector 

2 object VectorAccumulatorParam extends AccumulatorParam[Vector] { 
3. // 定 义 “ 零 ” 值 ， 这 里 把 传 入 的 初始 值 的 size 作为 “ 零 ” 值 

4 def zero (initialValue: Vector) : Vector = { 

人 Vector .zeros (initialValue.size) 

6. } 

7. // 定 义 累 加 操作 的 计算 方式 

8. def addInPlace (v1: Vector, v2: Vector): Vector = { 
a vl += v2 

Oe } 

相遇 





上 面 的 累加 器 元 素 和 返回 类 型 是 相同 的 , 在 Scala 中 还 有 另外 一 种 方式 来 自 定义 累加 器 ， 


。17 。 
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用 户 只 需要 继承 Accumulable， 就 可 以 把 元 素 和 返回 值 定义 为 不 同 的 类 型 ， 这 样 我 们 就 可 以 


完成 添加 操作 (如 往 Int 类 型 的 List 里 添加 整数 ， 此 时 元 素 为 Int 类 型 ， 而 返回 类 型 为 List) 。 


在 Spark 2.X 中 加 入 一 个 新 的 抽象 类 


方法 : 
add 方法 : 指定 元 素 相 加 操作 。 

copy 方法 : 指定 对 自 定义 累加 器 的 复制 操作 。 
isZero 方法 : 返回 该 累加 器 的 值 是 否 为 “ 零 ”。 
merge 方法 : 合并 两 个 相同 类 型 的 累加 器 。 
reset 方法 : 重 置 累加 器 。 

value 方法 : 返回 累加 器 当前 的 值 。 








AccumulatorV2， 继 承 这 个 类 要 实现 以 下 几 种 


重 写 这 几 种 方法 之 后 ， 只 需 实例 化 自 定义 累加 器 ， 并 连同 累加 器 名 字 一 起 传 给 


sparkContext.register 方法 。 





: 
2 
< 
4. 
5 
请 


下 面 简单 实现 一 个 把 字符 串 合 并 为 数组 的 累加 器 : 


// 首 先 要 继承 RccumulatorV2， 并 指定 输入 为 String 类 型 ， 输 出 为 ArrayBuffer [String] 
class MyAccumulator extends RccumulatorV2 [String，RrrayBuffer[String]] { 
// 设 置 累 加 器 的 结果 ， 类 型 为 ArrayBuffer [String] 

private var result = ArrayBuffer[String] () 


// 判 断 累加 器 当前 值 是 否 为 “ 零 值 ”， 这 里 我 们 指定 如 果 result 的 size 为 0， 则 累加 器 的 当 
// 前 值 是 “ 零 值 


override def isZero: Boolean = this.result.size == 0 


//copy 方法 设置 为 新 建 本 累加 器 ， 并 把 result 赋 给 新 的 累加 器 
override def copy(): AccumulatorV2[String, ArrayBuffer[String]] = { 
val newAccum = new MyAccumulator 
newAccum.result = this.result 
newAccum 


} 


。. //reset 方法 设置 为 把 result 设置 为 新 的 ArrayBuffer 


. Override def reset(): Unit = this.result == new ArrayBuffer [String] () 


. //add 方法 把 传 进来 的 字符 串 添加 到 result 内 


. Override def add(v: String): Unit = this.result += V 


. //merge 方法 把 两 个 累加 器 的 result 合并 起 来 
. Override def merge (other: AccumulatorV2[String, ArrayBuffer[String]]): 


Unit = { 
result.++=: (other.value) 


b 


. //value 方法 返回 result 


override def value: ArrayBuffer[String] = this.result 


} 
.接着 在 main 方法 里 使 用 累加 器 : 


. val Myaccum = new MYAccumulator () 


。.// 向 SparkContext 注册 累加 器 


sc.register (Myaccum) 


- // 把 “a”“b”“c”“q” 添 加 进 累 加 器 的 result 数组 并 打印 出 来 


sc.parallelize (Array ("a", "b","c","d")) .foreach(x => Myaccum.add (x)) 
println (Myaccum.value) 
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运行 结果 显示 的 ArrayBuffer 里 的 值 顺序 是 不 国定 的 ， 取 决 于 各 个 Executor 的 值 到 达 


Driver 的 顺序 。 


2.3 Spark 2.2 SQL 


Spark 2.0 通过 对 SQL 2003 的 支持 增强 了 SQL 功能 , Catalyst 新 引擎 提升 了 Spark 查询 优 
化 的 速度 ， 本 节 对 DataFrame 和 Dataset API、 时 间 窗 口 进行 了 讲解 。 
Apache Spark 2.2.0 版 本 中 核心 和 Spark SQL 的 更 新 如 下 。 


二 


. APl 更 新 


OOOCDO 


于 SQL 查询 。 


于 成 本 的 优化 : 
SPARK-17075 


D 册 OoooOoOOOO 


SPARK-19107: 
SPARK-13721: 
SPARK-18885: 
SPARK-16475: 


SPARK-18350: 
SPARK-19261: 
SPARK-20420: 
SPARK-18127: 
SPARK-20576: 
SPARK-17203: 
SPARK-19139: 


支持 使 用 DataFrameWriter 和 Catalog 创建 hive 表 。 

增加 支持 LATERAL VIEW OUTER explode()。 

统一 数据 源 和 hive serde 表 的 CREATE TABLE 语法 。 

增加 广播 提示 BROADCAST、BROADCASTJOIN 和 MAPJOIN, 用 


支持 会 话 本 地 时 区 。 

支持 ALTER TABLE table name 和 COLUMNS。 
将 事件 增加 到 外 部 目录 。 

向 Spark 增加 钧 子 和 扩展 点 。 

在 Dataset/DataFrame 中 支持 通用 提示 功能 。 
数据 源 选项 应 始终 不 区 分 大 小 写 。 

基于 AES 的 Spark 认证 机 制 。 


性 能 优化 和 系统 稳定 性 


SPARK-17076 SPARK-19020 SPARK-17077 SPARK-19350: 过 滤 filter， 


关联 join， 聚合 aggregate， 投 影 project 和 限制 limit/ 样 本 运算 符 sample 的 基数 估计 。 


SPARK-17626 


SPARK-18186 
SPARK-18362 
SPARK-18775 
SPARK-18761 
SPARK-15352 


其 他 变化 


多 加 日 日 日 日 日 恒 


SPARK-18352 
SPARK-19610 


日 量 


SPARK-17080: 


SPARK-17949: 


基于 成 本 的 关联 重新 排序 。 

: 使 用 星 形 模 式 启发 的 TPC-DS 性 能 提升 。 

引入 基于 JVM 对 象 的 聚合 运算 符 。 

: HiveUDAFFunction 的 部 分 聚合 支持 。 
SPARK-19918: CSV 和 JSON 的 文件 列表 /1/O 改进 。 
: 限制 每 个 文件 写 入 的 最 大 记录 数 。 

: 不 可 取消 /不 能 被 杀 掉 的 任务 不 应 该 资源 短缺 。 

: 拓扑 识别 块 复制 。 


: 支持 解析 多 行 JSON 文件 。 
: 支持 解析 多 行 CSV 文件 。 
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SPARK-21079: 分 析 分 区 表 上 的 表 命 令 。 

SPARK-18703: 对 Hive-serde 表 插入 /CTAS 完成 后 ， 删 除 暂 存 日 录 和 数据 文件 。 
SPARK-18209: 更 强大 的 视图 规范 化 ， 无 须 完全 SQL 扩展 。 

SPARK-13446: [SPARK-18112] 支 持 从 Hive metastore 2.0/2.1 读 取 数 据 。 
SPARK-18191: 使 用 提交 协议 的 RDD API 端口 。 

SPARK-8425: 增加 黑 名 单机 制 进行 任务 调度 。 

SPARK-19464: 删除 对 Hadoop 2.5 及 更 早 版 本 的 支持 。 

SPARK-19493: 删除 Java 7 支持 。 





DOOOODODODD 


2.3.1 Spark SQL 


Spark 2.0 通 过 对 SQL 2003 的 支持 大 幅 增强 了 SQL 功能 , 现在 可 以 运行 所 有 99 个 TPC-DS 
查询 。 这 个 版 本 中 的 SparkSQL 主要 有 以 下 几 点 改进 : 

(1) 引入 了 支持 ANSISQL 和 HiveSQL 的 本 地 解析 器 。 

(2) 本 地 实现 DDL 命令 。 

(3) 支持 非 相关 标量 子 查 询 。 

(4) 在 Where 与 having 条件 中 ， 支 持 aobin 和 (not)exists。 

(5) 即使 Spark 没有 和 Hive 集成 搭建 ，SparkSQL 也 支持 它们 一 起 搭建 时 的 除了 Hive 连 
接 、Hive UDF (User Defined Function 用 户 自 定义 函数 ) 和 脚本 转换 之 外 的 大 部 分 功能 

(6) Hive 式 的 分 桶 方式 的 支持 。 

另外 ，Catalyst 查询 优化 器 对 于 常见 的 工作 负载 也 有 了 很 多 提升 ， 对 如 nullability 
propagation 之 类 的 查询 做 了 更 好 的 优化 。Catalyst 查询 优化 器 从 最 早 的 应 用 于 SparkSQL 到 现 
在 应 用 于 DataSetAPI， 对 Spark 程序 的 高 效率 运行 起 到 了 非常 重要 的 作用 ， 并且 随 着 
DataSetAPI 的 流行 ， 以 及 优化 器 自身 的 不 断 演进 ， 未 来 肯定 会 对 Spark 的 所 有 框架 带 来 更 高 
的 执行 效率 。 


2.3.2 DataFrame 和 Dataset API 


在 Spark 1.X 版 本 中 ,DataFrame 的 API 存在 很 多 问题 , 如 DataFrame 不 是 类 型 安全 的 (not 
type-safe) 、 不 是 面向 对 象 的 (not object-oriented) ， 为 了 克服 这 些 问 题 ，Spark 在 1.6 版 本 
引入 了 Dataset， 并 在 2.0 版 本 的 Scala 和 Java 中 将 二 者 进行 了 统一 (在 Python 和 R 中, 由 于 
缺少 类 型 安全 性 ，DataFrame 仍 是 主要 的 编程 接口 ) ，DataFrame 成 为 DataSet[Row] 的 别名 ， 
而 且 Spark 2.0 版 本 为 DataSet 的 类 型 化 聚合 加 入 了 一 个 新 的 聚合 器 ， 让 基于 DataSet 的 聚合 
更 加 高 效 。 

在 Spark 2.1 版 本 中 ，DataFrame 和 Dataset API 晋升 为 稳定 的 API。 也 就 是 说 ， 可 以 在 生 
产 实践 中 使 用 它们 ， 且 后 续 会 基于 向 后 兼容 的 前 提 不 断 强 化 。 

DataSetAPI 是 High-LevelAPI， 有 更 高 的 抽象 级 别 ， 与 RDDAPI 这 样 的 Low-LevelAPI 
相 比 更 加 易 用 ， 它 对 于 提升 用 户 的 工作 效率 ， 以 及 提高 程序 的 可 读 性 而 言 意义 非凡 。 由 于 
WholeStageCodeGeneration 的 引入 ，SparkSQL 和 DataSetAPI 中 的 常见 算 子 的 性 能 提升 了 人 
10 倍 。 加 上 Catalyst 查询 优化 器 和 Tungsten 的 帮助 ， 用 户 不 用 过 多 地 关注 对 程序 的 优化 ， 也 
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能 获得 很 好 的 执行 效率 。 
所 以 ， 毋 庸 置疑 地 ， 这 样 一 种 简单 高 效 的 API 将 成 为 Spark 未 来 主流 的 编程 接口 。 




















2.3.3 Timed Window 














对 于 经 常用 到 复杂 SQL 的 用 户 而 言 ， 窗 口 函数 一 直 以 来 都 是 不 可 或 缺 的 ， 在 Spark 2.X 
版 本 中 ， 通 过 对 Hive 中 的 窗口 函数 的 本 地 化 实现 ， 使 用 Spark 的 内 存 管理 机 制 ， 从 而 提升 了 
窗口 函数 的 性 能 。 


2.4 Spark 2.2 Streaming 


Spark 2.0 为 我 们 带 来 了 一 个 新 的 流 处 理 框架 Structured Streaming， 这 是 一 个 基于 Spark 
SQL 和 Catalyst 优化 器 构建 的 高 级 流 API。 它 允许 用 户 使 用 与 操作 静态 数据 的 
DataFrame/Dataset API 对 流 数据 进行 编程 ， 利 用 Catalyst 优化 器 自动 地 增 量化 查询 计划 ， 并 
且 它 不 但 支持 流 数 据 的 不 断 写 入 ， 还 支持 其 他 的 静态 数据 的 插入 。 

Apache Spark 2.2.0 版 本 中 Structured Streaming 的 更 新 : 


1. 整体 可 用 性 
SPARK-20844: 结构 化 流 式 API 现在 已 经 是 可 行 的 ， 不 再 被 标注 为 实验 性 。 
Kafka 提 升 


SPARK-19719: 支持 从 Apache Kafka 流 式 传输 或 批量 读 取 和 写 入 数据 。 
SPARK-19968: 低 延 迟 kafka 到 kafka 流 的 缓存 生产 者 。 


APl 更 新 


SPARK-19067: 支持 复杂 的 状态 处 理 和 [flatJMapGroupsWithState 的 超时 处 理 。 
SPARK-19876: 支持 一 次 触发 。 


其 他 变化 
SPARK-20979: 用 于 测试 和 基准 测试 的 速率 源 。 


= Bw GD : 





2.4.1 Structured Streaming 


Structured Streaming 会 通过 Checkpoint (检查 点 ) 机 制 和 预 写 日 志 的 方式 来 确保 对 流 数 
据 的 语义 一 致 性 exactly-once 处 理 ， 让 整个 处 理 过 程 更 加 可 靠 。 

在 Spark 2.2 版 本 中 增加 了 对 kafka 0.10 的 支持 ,为 记录 添加 了 可 见 的 基于 事件 时 间 水 印 
的 延迟 ， 并 且 现 在 Structured Streaming 已 经 支持 对 所 有 格式 的 文件 操作 。 

到 Spark 2.1 版 本 为 止 ，Structured Streaming 还 处 于 试验 阶段 ， 还 需 几 个 版 本 的 迭代 ， 才 
能 稳定 到 可 以 在 生产 环境 下 使 用 的 程度 。 
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下 面 结合 官方 文档 了 解 一 下 Structured Streaming。 

首先 写 一 个 程序 来 监听 网 络 端口 发 来 的 内 容 ， 然 后 进行 WordCount。 

第 一 步 : 创建 程序 入 口 SparkSession， 并 引入 spark.implicits 来 允许 Scalaobject 隐 式 转换 
为 DataFrame。 


1. val spark = SparkSession.builder 
2. -appName ("StructuredNetworkCount") .getOrCreate() 
3. import spark.implicits. 


第 二 步 : 创建 流 。 配 置 从 socket 读 取 流 数据 ， 地 址 和 端口 为 localhost:9999。 


3 val lines = spark.readStream. format ("socket") 

2 -option("host", "localhost") .option ("port", "9999") 

Es .lo0ad() 

第 三 步 : 进行 单词 统计 。 这 里 lines 是 DataFrame， 使 用 as[String] 给 它 定义 类 型 转换 为 
DataSet。 之 后 在 DataSet 里 进行 单词 统计 。 

da val words = lines.as[String] .flatMap( .split(" ")) 

人 Val wordcount = words.groupBy ("values") .count () 


第 四 步 : 创建 查询 句柄 ， 定 义 打 印 结 果 方 式 并 启动 程序 。 这 里 使 用 writeStream 方法 ， 输 
出 模式 为 全 部 输出 到 控制 台 。 


E val query = wordcount .writeStream 
.outputMode ("complete") .format ("console") .start () 


人 < 
3. // 调 用 awaitTermination 方法 来 防止 程序 在 处 理 数据 时 停止 
4. query.awaitTermination() 

接 下 来 运行 该 程序 ， 在 Linux 命令 窗口 运行 nc-lk 9999 开启 9999 端口 。 
然后 在 Spark 的 Home 目录 下 提交 程序 ， 传 入 IP 和 端口 号 。 


El .bin/run-example 

2. org.apache.spark.examples.sql.streaming.StructuredNetworkWordCount 

S20iocalhost 9999 

程序 启动 之 后 ， 在 前 面 的 命令 窗口 中 输入 单词 apache spark， 程 序 会 运行 并 打印 出 结果 ， 
如 图 2-1 所 示 。 

最 后 再 输入 hello spark， 程 序 会 再 次 运行 并 打印 出 如 图 2-2 所 示 的 结果 。 


+------ +----- 十 A 本 
| value|count| lavatuealcount 

+------ +----- + 
Rs te . | hello| 1| 
lapache| 1] lapache| 1| 
| spark| 1] | spark| 2| 
+------ +----- + +------ +----- 十 

图 2-1 Spark Streaming 运行 示意 图 1 图 2-2 Spark Streaming 运行 示意 图 2 


可 见 , 融合 了 DataSetAPI 的 流 处 理 框架 的 程序 代码 十 分 简捷 ， 并 且 执行 效率 也 会 比 原 来 
的 SparkStreaming 更 高 。 

Structured Streaming 的 关键 思想 如 图 2-3 所 示 : 把 数据 流 视 作 一 张 数据 不 断 增 加 的 表 ， 
这 样 用 户 就 可 以 基于 这 张 表 进行 数据 处 理 ， 就 好 像 使 用 批 处 理 来 处 理 静 态 数 据 一 样 ， 但 实际 
上 Spark 底层 是 把 新 数据 不 断 地 增 量 添加 到 这 张 无 界 的 表 的 下 一 行 中 。 
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数据 流 元 界 表 
sud ee 
在 天 办 表 上 党 加 新 和 

Te 

作为 无 界 表 的 数据 流 


图 2-3 ”Structured Streaming 的 关键 思想 


Structured Streaming 共有 3 种 输出 模式 ， 这 3 种 模式 都 只 适用 于 某 些 类 型 的 查询 : 

(1) CompleteMode: 完整 模式 。 整 个 更 新 的 结果 表 将 被 写 入 外 部 存储 器 。 由 存储 连接 器 
决定 如 何 处 理 整 张 表 的 写 入 。 聚 合 操作 以 及 聚合 之 后 的 排序 操作 支持 这 种 模式 。 

(2) AppendMode: 附加 模式 。 只 有 自 上 次 触发 执行 后 在 结果 表 中 附加 的 新 行 会 被 写 入 
外 部 存储 器 。 这 仅 适用 于 结果 表 中 的 现 有 行 不 会 更 改 的 查询 , 如 select、 where、 map、flatMap、 
filter、join 等 操作 支持 这 种 模式 。 

(3) UpdateMode: 更 新 模式 (这 个 模式 将 在 以 后 的 版 本 中 实现 )。 只 有 自 上 次 触发 执行 
后 在 结果 表 中 更 新 的 行将 被 写 入 外 部 存储 器 (不 输出 未 更 改 的 行 )。 


2.4.2 ” 增 量 输出 模式 


上 面 例子 中 使 用 的 是 CompleteMode， 程 序 中 接收 数据 的 输入 表 是 lines， 它 是 一 个 
DataFrame， 新 来 的 数据 会 被 添加 进去 。 之 后 的 wordCounts 是 结果 表 。 当 程序 启动 时 ，Spark 
会 不 断 检测 是 否 有 新 数据 加 入 到 lines 中 ， 如 果 有 新 数据 ， 则 运行 一 个 增 量 的 查询 , 与 上 一 次 
查询 的 结果 合并 ， 并 且 更 新 结果 表 ， 如 图 2-4 所 示 。 






时 间 
无 界 表 中 的 所 有 输入 





单词 计数 查询 


启 } 扩 1 时 的 | {2 时 的 
单词 计数 的 结果 表 时 hs 站 吕 订 直 
数 结果 数 结果 


输出 模式 
在 控制 台 上 打印 所 有 的 单词 计数 结果 


快速 范例 模型 
图 2-4 Spark Streaming 示意 图 
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这 个 看 似 非 常 简单 的 设计 ， 背 后 的 实现 逻辑 却 并 不 简单 ， 因 为 其 他 的 流 处 理 框 架 用 户 是 
需要 自己 推理 怎么 解决 容错 和 数据 一 致 性 的 问题 ， 如 经 典 的 at-most-once、at-least-once、 
exactly-once 问题 ， 而 在 上 面 的 CompleteMode 下 ，Spark 因为 只 在 有 新 数据 进来 的 时 候 才 会 
更 新 结果 ， 所 以 帮 用 户 解 决 了 这 些 问 题 。 我 们 可 以 通过 StructuredStreaming 在 基于 event-time 
的 操作 和 延迟 数据 的 处 理 这 两 个 问题 上 的 解决 方式 来 简单 地 了 解 背 后 的 实现 机 制 。 

event-time 是 谍 入 事件 本 身 的 时 间 ， 记 录 了 事件 发 生 的 时 间 。 很 多 时 候 我 们 需要 用 这 个 
时 间 来 实现 业务 逻辑 ， 例 如 ， 我 们 要 获取 IOT 设备 每 分 钟 产 生 的 事件 数量 ， 则 可 能 需要 使 用 
生成 数据 的 时 间 ， 而 不 是 Spark 接收 它们 的 时 间 。 在 这 个 模式 下 ，event-time 作为 每 行 数据 中 
的 一 列 ， 可 以 用 于 基于 时 间 窗 口 的 聚合 ， 也 正 因 如 此 ， 基 于 event-time 的 窗口 函数 可 以 同样 
被 定义 在 静态 数据 集 上 《〈 如 日 志文 件 等 ) 。 

而 关于 容错 方面 ， 提 供 端 到 端的 exactly-once 语义 是 Structured Streaming 的 主要 设计 目 
标 之 一 , 要 实现 exactly-once, 就 要 考虑 数据 源 (sources)、 执 行 引擎 (execution) 和 存储 (Csinks) 
3 个 方面 Structured Streaming 是 这 样 实现 的 : 假定 每 个 数据 源 都 有 偏 移 量 (与 kafka 的 offsets 
类 似 ) 用 来 追溯 数据 在 数据 流 中 的 位 置 ， 在 执行 引擎 中 会 通过 checkpoint (检查 点 ) 和 WAL 
(writeaheadlogs 预 写 日 志 ) 记录 包括 被 处 理 的 数据 的 偏 移 量 范 围 在 内 的 程序 运行 进度 信息 ; 
在 存储 层 设 计 成 多 次 处 理 结 果 圭 等 ， 即 处 理 多 次 结果 相同 。 这 样 确 保 了 Structured Streaming 
端 到 端 exactly-once 的 语义 一 致 性 。 

上 面 提 到 的 event-time 列 带 来 的 另 一 个 好 处 是 ， 可 以 很 自然 地 处 理 “ 迟 到 ”的 数据 〈 如 
没有 按照 event-time 的 时 间 顺 序 被 Spark 接收 )， 因 为 更 新 旧 的 结果 表 时 ， 可 以 完全 控制 更 
新 和 清除 旧 的 聚合 结果 来 限制 处 于 中 间 状 态 的 数据 (窗口 函数 中 , 这 些 数据 可 以 是 有 状态 的 》 
的 大 小 。Spark 2.1 引入 的 watermarking 允许 用 户 指定 延迟 数据 的 阔 值 ， 也 允许 引擎 清除 掉 旧 
的 状态 。 

先 来 看 一 下 基础 的 窗口 函数 在 Stuctured Streaming 中 的 应 用 。 例 如 ， 要 对 10min 的 单词 
进行 计数 ， 每 Smin 统计 一 次 ， 我 们 要 把 滑动 窗口 的 大 小 设置 为 10min， 每 Smin 滑动 一 次 。 
具体 代码 如 下 。 

1. // 假 如 输入 的 数据 words 格式 是 timestamp: Timestamp, word: String 

2. val windowedCounts = words 

3. .groupBy( 

4. // 设 置 窗口 按照 timestamp 列 为 参照 时 间 , 10min 为 窗口 大 小 , 5min 滑动 一 次 ,并 且 按 照 word 

// 进 行 分 组 计数 
与 window($"timestamp", "10 minutes","5 minutes"),word 
6 ) .count 














如 图 2-5 所 示 ， 从 12:00 开始 ，12:05 启动 第 一 次 查询 ， 数 据 是 12:00-12:10 时 间 段 的 ， 
当然 , 此 时 只 有 前 5min 的 数据 被 统计 进来 。 在 12:10 分 时 统计 12:05-12:15 时 间 段 的 数据 (此 
时 也 是 只 有 前 Smin 的 数据 ) ， 并 把 上 一 个 窗口 的 后 5min 的 数据 ( 即 12:05-12:10 时 间 段 的 数 
据 ) 的 统计 结果 合并 到 上 一 个 窗口 的 结果 中 去 ， 之 后 每 次 启动 查询 ， 都 会 把 上 一 个 窗口 的 查 
询 结果 补 全 ， 并 把 本 窗口 的 前 Smin 数据 的 统计 结果 记 下 来 。 

但 是 ， 我 们 可 能 会 遇 到 这 种 情况 : 如 图 2-6 所 示 ，12:04 产生 的 数据 ， 一 直到 12:10 之 后 
才 被 程序 接收 到 ， 此 时 数据 依然 会 被 正确 地 合并 到 对 应 的 窗口 中 去 ， 但 是 这 样 会 导致 查询 结 
果 长 时 间 处 于 中 间 状 态 ， 而 如 果 要 长 时 间 运 行程 序 ， 就 必须 限制 累积 到 内 存 中 的 中 间 状 态 结 
果 的 大 小 ， 这 就 要 求 系统 知道 什么 时 候 清理 这 些 中 间 状 态 的 数据 。 
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5 分 钟 触发 生成 的 结果 表 


计算 时 间 窗 口 12:05-12:15 
滑动 叶 间 每 5 分 钟 统计 前 10 分 钟 de i 
的 时 间 窗口 聚合 数据 和 12:10-12:20 中 着 增 的 计数 


图 2-5 Spark 流 处 理 示意 图 





a ne 


5 分 钟 触 发 生成 的 结果 表 
12:0>-12:1> | cat | 1 | 





12:00-12:10 
延迟 数据 在 时 间 窗口 分 组 聚集 中 的 处 理 


图 2-6 流 处 理 Watermark 数据 示意 图 


在 Spark 2.1 中 引入 水 印 (watermarking) ， 使 得 系统 可 以 自动 跟踪 目前 的 event-time， 并 
按照 用 户 指定 的 时 间 清 理 旧 的 状态 。 使 用 方法 如 下 。 


1. val windowedCounts = words 

芝 .withWatermark ("timestamp", "10 minutes") 

光志 -groupBY (window(S"timestamp"，"10 minutes", "5 minutes"),S"word") 
四 -Count () 


这 里 设置 时 间 为 10min， 在 Append 模式 下 ， 具 体 执行 逻辑 如 图 2-7 所 示 。 

图 2-7 中 点 线 表示 目前 收 到 的 数据 的 最 大 event-time， 实 线 是 水 印 〈 计 算 方 法 是 运算 截止 
到 触发 点 时 收 到 的 数据 最 大 的 event-time 减 去 latethreshold， 也 就 是 减 去 10) ， 当 水 印 时 间 小 
于 窗口 的 结束 时 间 时 ， 计 算 的 数据 都 被 保留 为 中 间 数 据 ， 当 水 印 时 间 大 于 窗口 结束 时 间 时 ， 
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把 这 个 窗口 的 运算 结果 加 入 到 结果 表 中 去 ， 之 后 即使 再 收 到 属于 这 个 窗口 的 数据 ， 也 不 再 
进行 计算 ,而 直接 忽略 掉 。 图 中 在 12:15 时 刻 最 大 的 event-time 为 12:14, 所 以 水 印 时间 为 12:04， 
小 于 第 一 个 窗口 的 12:10， 所 以 此 时 计算 的 数据 处 于 中 间 状 态 ， 存 放 在 内 存 中 ， 在 下 一 个 触 
发 点 也 就 是 12:20 时 ， 最 大 event-time 为 12:21， 水 印 时 间 是 12:11， 大 于 12:10， 此 时 认为 
12:00-12:10 窗口 的 数据 已 经 完全 到 达 ， 把 中 间 结 果 中 属于 这 个 窗口 的 数据 写 入 到 结果 表 中 ， 
并 且 之 后 不 再 对 这 个 结果 进行 更 新 。 























12:20|| @ 数 据 (事件 事件 ， 单 词 ) 
人 @ 数 据 延迟 ， 但 在 水 印 内 


路 提 延 这， 唤 于 水 07 






























到 12415|| … 弄 时 部 为止 看 到 的 最 大 二 , NR 
加 事件 时 ees "19:15.cal 
下 一 最 大 事件 时 间 - 12:13,0wl 
入 12:10 辣 值 wm=12:21-10m71@ 1 
@… 12:09,cat 加 12:09.cat 
2:08, 党 12:08,dog 
i 2 a a © 
迟 固 值 =10 分 钟 :04, donkey™— 数据 生态 哆 ， 
wm=12:14-10m=12:04 
12:00 | 12310 123 1 1230 
ed 时 间 窗 口 12:00 一 12:1 呈 持 内 和 
min 触 发 一 次 村 加 窗口 12: 
sa 和 oo 
00 一 12:10 最 终 计 各 的 条 本 如 下， 
当 水 印 >12:10 分 ， 和 有 
时 间 窗口 的 中 则 状态 将 被 
使 用 追加 模式 ， 水 印 在 时 间 每 次 出 发 以 后 的 结果 


口 进 行 分 组 聚集 


图 2-7 Append 逻辑 示意 图 


需要 注意 的 是 ， 在 Append 模式 下 ， 系 统 在 输出 某 个 窗口 的 运行 结果 之 前 一 定 会 根据 设 
置 等 待 延迟 数据 ， 这 就 意味 着 如 果 用 户 把 延迟 阔 值 设置 为 1 天 ， 那 么 在 这 一 天 内 就 无 法 看 到 
这 个 窗口 的 〈 中 间 ) 结果 。 不 过 ， 在 以 后 的 版 本 中 ，Spark 会 加 入 Update 模式 来 解决 这 一 
问题 。 

Structured Streaming 目前 有 4 种 输出 数据 的 处 理 方式 : 

(1) writeStream .format("parquet).start0， 输 出 到 文件 中 ，Append 模式 支持 这 种 方式 。 这 
种 方式 自 带 容错 机 制 。 

(2 ) writeStream format("console").start()， 输 出 到 控制 台 ， 用 于 调试 。Append 模式 和 
Complete 模式 支持 这 种 方式 。 

(3) writeStream format("memory").queryName("table").start(), 以 table 的 形式 输出 到 内 存 ， 
可 以 在 之 后 的 程序 中 使 用 spark.sql(select * from table).show 来 对 结果 进行 处 理 。 这 种 方式 同 
样 用 于 调试 。Append 模式 和 Complete 模式 支持 这 种 方式 。 
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(4) writeStream foreach(...).start0)， 对 输出 结果 进行 进一步 处 理 。 要 使 用 它 ， 用 户 必 须 传 
入 一 个 实现 ForeachWriter 接口 的 writer 类 ， 这 个 类 必须 是 可 序列 化 的 ， 因 为 稍 后 会 把 结果 发 
送 到 不 同 的 executor 进行 分 布 式 计算 。 这 个 接口 有 3 个 方法 要 实现 , 即 open、process、close。 

口 open 方法 : open 方法 有 两 个 入 参 : version、partitionId， 其 中 partitionId 是 分 区 ID， 

version 是 重复 数据 删除 的 唯一 ID 标识 。open 方法 用 于 处 理 Executor 分 区 的 初始 化 
(如 打开 连接 启动 事物 等 )。version 用 于 数据 失败 时 重复 数据 的 删除 ， 当 从 失败 中 恢 
复 时 ， 一些 数 据 可 能 生成 多 次 ， 但 它们 具有 相同 的 版 本 。 如 果 此 方法 发 现 使 用 的 
partitionId 和 version 这 个 分 区 已 经 处 理 后 ， 可 以 返回 false， 以 跳 过 进一步 的 数据 处 
理 ， 但 close 仍然 将 被 要 求 清理 资源 。 

口 process 方法 :调用 此 方法 处 理 Executor 中 的 数据 。 此 方法 只 在 open 时 调用 ,返回 true。 

口 close 方法 : 停止 执行 Executor 一 个 分 区 中 的 新 数据 时 调用 ， 保 证 被 调用 open 时 返 
回 true， 或 者 返回 false。 然 而 ， 在 下 列 情 况 下 ，close 不 被 调用 : JVM 崩溃 ， 没 有 抛 

出 异常 Throwable; open 方法 抛 出 异常 Throwable。 

最 后 要 说 明 的 是 ， 为 了 程序 在 重启 之 后 可 以 接着 上 次 的 执行 结果 继续 执行 ， 需 要 设置 检 
查 点 ， 方 式 如 下 : 

1. aggDF.writeStream.outputMode ("complete") 


忆 .option("checkpointLocation", "path/to/HDFS/dir") 
呈 训 .format ("memory") .start () 























2.5 Spark 2.2 MLlib 


Spark 2.2 版 本 中 新 增 了 基于 DataFrame 的 机 器 学 习 ; Spark 2.2 对 及 语言 的 机 器 学 习 新 增 
了 更 多 算法 的 支持 , 如 Random Forest (随机 森林 )、Gaussian Mixture Model (高 斯 混合 模型 ) 、 
Naive Bayes (朴素 贝 叶 斯 ) 、Survival Regression (生存 回归 分 析 〉 以 及 KK-Means(K- 均 值 ) 
等 算法 。 

Apache Spark 2.2.0 版 本 中 MLlib 的 更 新 如 下 。 

1. 基于 DataFrame 的 API 的 新 算法 


SPARK-14709: LinearSVC (线性 SVM 分 类 器 ) 〈Scala/Java/Python/R) 。 
SPARK-19635: 基于 DataFrame 的 API (Scala/Java/Python) 中 的 ChiSquare 测试 。 
SPARK-19636: 基于 DataFrame 的 API (Scala/Java/Python) 的 相关 性 。 
SPARK-13568: 用 于 估算 缺失 值 的 计算 特征 变换 器 〈Scala/Java/Python) 。 
SPARK-18929: 为 GLM 增加 Tweedie 分 布 (Scala/Java/PythonR) 。 
SPARK-14503: FPGrowth 频繁 模式 挖掘 和 关联 规则 〈Scala/Java/Python/R) 。 


现 有 的 算法 增加 到 Python 和 R API 


SPARK-18239: 梯度 增强 树 。 
SPARK-18821: 二 分 KK 均值 。 
SPARK-18080: 区 域 敏 感 哈 希 (LSH) (Python) 。 


De ,BDOED 


yy 
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口 


SPARK-6227: PySpark 的 分 布 式 PCA 和 SVD (基于 RDD 的 API) 。 
3. 主要 的 BUG 修复 


SPARK-19110: DistributedLDAModel.logPrior 正确 性 修复 。 

SPARK-17975: EMLDAOptimizer 失败 产生 的 异常 ClassCastException (由 GraphX 
检查 点 错误 引起 ) 。 

SPARK-18715: 修正 二 项 式 GLM 中 AIC 计算 的 错误 。 

SPARK-16473: 二 分 K 均值 失败 ， 训 练 使 用 一 定 的 输入 次 数 时 ， 提 示 “javautil. 
NoSuchElementException: key not found”。 

口 SPARK-19348: pyspark.ml.Pipeline 在 多 线程 使 用 下 损坏 。 

口 SPARK-20047: 箱 约束 逻辑 回归 。 


4. 废弃 功能 


口 口 





SPARK-18613: sparkml LDA 类 不 应 在 API 中 公开 spark.mllib。 在 spark.ml.LDAModel 
中 已 弃 用 oldLocalModel 和 getModel。 


5. 行为 变化 


SPARK-19787: DeveloperApi ALS .train() 使 用 默认 的 regParam 值 0.1， 而 不 是 1.0， 以 匹 
配 常规 ALS API 的 默认 regParam 设置 。 
2.5.1 基于 DataFrame 的 Machine Learning API 


我 们 可 以 从 下 载 的 Spark 源码 中 看 到 加 入 了 spark.ml 包 (原来 的 spark.mllib 仍然 存在 ) ， 
这 是 在 新 版 本 中 加 入 的 基于 DataFrame 的 机 器 学 习 代 码 包 , 存储 在 DataFrames 中 的 向 量 和 算 
阵 现在 使 用 更 高 效 的 序列 化 , 减少 了 调用 MLlib 算法 的 开销 。 现在 spark.ml 包 代替 基于 RDD 
的 ML 成 为 主要 的 SparkMLAPI。 有 一 个 很 重要 的 功能 是 ， 现 在 可 以 保存 和 加 载 Spark 支持 
的 所 有 语言 的 Machine Learning pipeline 和 model 了 。 


2.5.2 RR 的 分 布 式 算法 


Apache Spark 2.2.0 版 本 中 SparkR 的 更 新 如 下 。 
SparkR 在 2.2.0 版 本 中 为 现 有 的 Spark SQL 功能 增加 了 广泛 的 支持 。 


. 主要 更 新 的 功能 点 


SPARK-19654: R 的 结构 化 流 式 API。 

SPARK-20159: 在 RR 中 支持 完整 的 Catalog API。 
SPARK-19795: 列 函 数 to_json、from json。 
SPARK-19399: 在 DataFrame 上 合并 ， 并 在 列 上 合并 。 
SPARK-20020: 支持 DataFrame 检查 点 。 
SPARK-18285: R 中 的 多 列 近 似 数 。 


二 








日 日 日 日 日 日 


.28 。 


第 2 章 Spark 2.2 技术 及 原理 








2. 废弃 功能 
SPARK-20195: 弃 用 createExtemalTable。 
3. 行为 变化 


SPARK-19291: 为 SparkR 高 斯 混合 模型 增加 了 对 数 似 然 ， 但 这 导致 SparkR 2.1 版 本 与 
2.2 版 本 不 兼容 : 从 SparkR 2.1 保存 的 高 斯 混合 模型 可 能 不 会 加 载 到 SparkR 2.2 中 。 计划 未 来 
推出 SparkR 的 向 后 兼容 性 保证 。 


4. 已 知 的 问题 


SPARK-21093: 在 SparkR 中 ， 多 次 执行 有 时 会 失败 。 

Spark 2.X 版 本 对 SparkR 的 最 大 改进 是 用 户 自 定义 函数 ， 包 括 dapply、gapply 和 lapply， 
前 两 者 可 以 用 于 执行 基于 分 区 的 用 户 自 定义 函数 〈 如 分 区 域 模型 学 习 ) ， 而 后 者 可 用 于 超 参 

Spark 2X 对 及 语言 的 机 器 学 习 增加 了 几 种 算法 : Random Forest( 随 机 森林 ) 、Gaussian 
Mixture Model (高 斯 混合 模型 ) 、Naive Bayes 〈 朴 素 贝 叶 斯 ) 、Survival Regression 〈 生 存 回 
归 分 析 ) 以 及 KK-Means 〈K- 均 值 ) 等 。 支 持 多 项 逻辑 回归 ， 来 提供 与 glmnet R 相似 的 功能 。 

同时 对 Python 的 机 器 学 习 也 增加 了 一 些 算法 ， 如 LDA 线性 判别 式 分 析 Linear 
Discriminant Analysis) 、 高 斯 混合 模型 、 广 义 线性 回归 等 。 





2.6 Spark 2.2 GraphX 


Apache Spark 2.2.0 版 本 中 GraphX 的 更 新 如 下 。 
1，Bug 修 复 


口 SPARK-18847: PageRank 对 图 汇 、 图 形 给 出 不 正确 的 结果 。 
口 SPARK-14804: 图 形 vertexRDD/EdgeRDD 检查 点 结果 报 异 常 ClassCastException。 
2. 系统 优化 


口 SPARK-18845: PageRank 初始 值 提升 ， 实 现 更 快 的 收敛 。 
口 SPARK-5484: Pregel 应 定期 检查 点 ， 以 避免 堆栈 溢出 异常 StackOverflowError。 
Spark 2.X 版 本 对 图 计算 的 改动 并 不 多 , 使 PageRank 更 加 个 性 化 以 及 移 除了 Bagel 模块 。 
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本 章 重 点 讲解 Spark 的 RDD 和 DataSet。3.1 节 讲 解 RDD 的 定义 五 大 特性 剖析 及 DataSet 
的 定义 和 内 部 机 制 剖 析 ; 3.2 节 对 RDD 弹性 特性 七 个 方面 进行 解析 ; 3.3 节 讲 解 RDD 依赖 关 
系 ， 包 括 窜 依赖 、 宽 依赖 ，3.4 节 解 析 Spark 中 DAG 逻辑 视图 ;3.5 节 对 RDD 内 部 的 计算 机 
制 及 计算 过 程 进行 深度 解析 ; 3.6 节 讲 解 Spark RDD 容错 原理 及 其 四 大 核心 要 点 解析 ; 3.7 节 
对 Spark RDD 中 Runtime 流程 进行 解析 ; 3.8 节 通 过 一 个 WordCount 实例 ， 解 析 Spark RDD 
内 部 机 制 ，3.9 节 基 于 DataSet 的 代码 ， 深 入 分 析 DataSet 一 步 步 转化 成 为 RDD 的 过 程 。 





3.1 为 什么 说 RDD 和 DataSet 是 Spark 的 灵魂 


Spark 建立 在 抽象 的 RDD 上 ， 使 得 它 可 以 用 一 致 的 方式 处 理 大 数据 不 同 的 应 用 场景 ， 把 
所 有 需要 处 理 的 数据 转化 成 为 RDD， 然 后 对 RDD 进行 一 系列 的 算 子 运算 ， 从 而 得 到 结果 。 
RDD 是 一 个 容错 的 、 并 行 的 数据 结构 , 可 以 将 数据 存储 到 内 存 和 磁盘 中 , 并 能 控制 数据 分 区 ， 
且 提供 了 丰富 的 API 来 操作 数据 。Spark 一 体 化 、 多 元 化 的 解决 方案 极 大 地 减少 了 开发 和 维 
护 的 人 力 成 本 和 部 署 平台 的 物力 成 本 ， 并 在 性 能 方面 有 极 大 的 优势 ， 特 别 适 合 于 人 迭代 计算 ， 
如 机 器 学 习 和 图 计算 ， 同 时 ，Spark 对 Scala 和 Python 交互 式 shell 的 支持 也 极 大 地 方便 了 通 
过 shell 直接 使 用 Spark 集群 来 验证 解决 问题 的 方法 ， 这 对 于 原型 开发 至 关 重 要 ， 对 数据 分 析 
人 员 有 着 无 法 拒绝 的 吸引 力 。 


3.1.1 RDD 的 定义 及 五 大 特性 剖析 


RDD 是 分 布 式 内 存 的 一 个 抽象 概念 ， 是 一 种 高 度 受 限 的 共享 内 存 模型 ， 即 RDD 是 只 读 
的 记录 分 区 的 集合 ， 能 横 跨 集群 所 有 节点 并 行 计算 ， 是 一 种 基于 工作 集 的 应 用 抽象 。 

RDD 底层 存储 原理 :其 数据 分 布 存储 于 多 台 机 器 上 ,事实 上 , 每 个 RDD 的 数据 都 以 Block 
的 形式 存储 于 多 台 机 器 上 ， 每 个 Executor 会 启动 一 个 BlockManagerSlave， 并 管理 一 部 分 
Block; 而 Block 的 元 数据 由 Driver 节点 上 的 BlockManagerMaster 保存 ，BlockManagerSlave 
生成 Block 后 向 BlockManagerMaster 注册 该 Block，BlockManagerMaster 管理 RDD 与 Block 





的 关系 ， 当 RDD 不 再 需要 存储 的 时 候 , 将 向 BlockManagerSlave 发 送 指令 删除 相应 的 Block。 
BlockManager 管理 RDD 的 物理 分 区 ， 每 个 Block 就 是 节点 上 对 应 的 一 个 数据 块 ， 可 以 
存储 在 内 存 或 者 磁盘 上 ,而 RDD 中 的 Partition 是 一 个 逻辑 数据 块 , 对 应 相应 的 物理 块 Block。 
本 质 上 ， 一 个 RDD 在 代码 中 相当 于 数据 的 一 个 元 数据 结构 ， 存 储 着 数据 分 区 及 其 逻辑 结构 
映射 关系 ， 存 储 着 RDD 之 前 的 依赖 转换 关系 。 
BlockManager 在 每 个 节点 上 运行 管理 Block(Driver 和 Executors)， 它 提供 一 个 接口 检索 
本 地 和 远程 的 存储 变量 ， 如 memory、disk、off-heap。 使 用 BlockManager 前 必须 先 初始 化 。 
BlockManager.scala 的 部 分 源码 如 下 所 示 。 
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private[spark] class BlockManager( 

2 executorId: String, 

公民 rpcEnv: RpcEnv, 

4. val master: BlockManagerMaster, 

Se val serializerManager: SerializerManager, 
Ge val conf: SparkConf, 

了 memoryManager: MemoryManager, 

8 . mapOutputTracker: MapOutputTracker, 

ss shuffleManager: ShuffleManager, 

0. val blockTransferService: BlockTransferService, 
i> securityManager: SecurityManager, 

2 numUsableCores: Int) 


13. extends BlockDataManager with BlockEvictionHandler with Logging { 


BlockManagerMaster 会 持 有 整个 Application 的 Block 的 位 置 、Block 所 占用 的 存储 空间 
等 元 数据 信息 ， 在 Spark 的 Driver 的 DAGScheduler 中 ， 就 是 通过 这 些 信息 来 确认 数据 运行 
的 本 地 性 的 。Spark 支持 重 分 区 , 数据 通过 Spark 默认 的 或 者 用 户 自 定义 的 分 区 器 决定 数据 块 
分 布 在 哪些 节点 。RDD 的 物理 分 区 是 由 Block-Manager 管理 的 ， 每 个 Block 就 是 节点 上 对 应 
的 一 个 数据 块 ， 可 以 存储 在 内 存 或 者 磁盘 。 而 RDD 中 的 partition 是 一 个 逻辑 数据 块 ， 对 应 相 
应 的 物理 块 Block。 本 质 上 ， 一 个 RDD 在 代码 中 相当 于 数据 的 一 个 元 数据 结构 (一 个 RDD 
就 是 一 组 分 区 )， 存 储 着 数据 分 区 及 Block、Node 等 的 映射 关系 ， 以 及 其 他 元 数据 信息 ， 存 
储 着 RDD 之 前 的 依赖 转换 关系 。 分 区 是 一 个 逻辑 概念 ，Transformation 前 后 的 新 旧 分 区 在 物 
理 上 可 能 是 同一 块 内 存 存储 。 

Spark 通过 读 取 外 部 数据 创建 RDD, 或 通过 其 他 RDD 执行 确定 的 转换 Transformation 操 
作 ( 如 map、union 和 groubByKey) 而 创建 ， 从 而 构成 了 线性 依赖 关系 ， 或 者 说 血统 关系 
(Lineage)， 在 数据 分 片 丢失 时 可 以 从 依赖 关系 中 恢复 自己 独立 的 数据 分 片 ， 对 其 他 数据 分 片 
或 计算 机 没有 影响 ， 基 本 没有 检查 点 开销 ， 使 得 实现 容错 的 开销 很 低 ， 失 效 时 只 需要 重新 计 
算 RDD 分 区 ， 就 可 以 在 不 同 节点 上 并 行 执行 ， 而 不 需要 回 深 (Roll Back》 整 个 程序 。 落 后 
任务 〈 即 运行 很 慢 的 节点 ) 是 通过 任务 备份 ， 重 新 调用 执行 进行 处 理 的 。 

因为 RDD 本 身 支持 基于 工作 集 的 运用 ， 所 以 可 以 使 Spark 的 RDD 持久 化 〈persist) 到 
内 存 中 ， 在 并 行 计算 中 高 效 重 用 。 多 个 查询 时 ， 我 们 就 可 以 显 性 地 将 工作 集中 的 数据 缓存 到 
内 存 中 ,为 后 续 查 询 提 供 复 用 ,这 极 大 地 提升 了 查询 的 速度 。 在 Spark 中 ， 一 个 RDD 就 是 一 
个 分 布 式 对 象 集合 ， 每 个 RDD 可 分 为 多 个 片 〈Partitions)， 而 分 片 可 以 在 集群 环境 的 不 同 节 
点 上 计算 。 

RDD 作为 泛 型 的 抽象 的 数据 结构 ， 支 持 两 种 计算 操作 算 子 : Transformation (变换 ) 与 
Action 〈 行 动 )。 且 RDD 的 写 操作 是 粗 粒 度 的 ， 读 操作 既 可 以 是 粗 粒 度 的 ， 也 可 以 是 细 粒 
度 的 。 

RDD.scala 的 源码 如 下 。 

1. /** 每 个 RDD 都 有 5 个 主要 特性 

如 *- 分 区 列表 

3 *- 每 个 分 区 都 有 一 个 计算 函数 

国 *- 依 赖 于 其 他 RDD 的 列表 

5 *- 数据 类 型 (Key-Value) 的 RDD 分 区 器 
6 *+- 每 个 分 区 都 有 一 个 分 区 位 置 列表 

有 人 class RDD[IT: ClassTag] ( 
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De @transient private var sc: SparkContext, 

10 Qtransient private var deps: Seq[Dependency[ ]] 

1s ) extends Serializable with Logging { 

其 中 ，SparkContext 是 Spark 功能 的 主要 入 口 点 ， 一 个 SparkContext 代表 一 个 集群 连接 ， 
可 以 用 其 在 集群 中 创建 RDD、 累 加 变量 、 广 播 变量 等 ， 在 每 一 个 可 用 的 JVM 中 只 有 一 个 
SparkContext, 在 创建 一 个 新 的 SparkContext 之 前 , 必须 先 停止 该 JVM 中 可 用 的 SparkContext， 
这 种 限制 可 能 最 终 会 被 修改 。SparkContext 被 实例 化 时 需要 一 个 SparkConf 对 象 去 描述 应 用 
的 配置 信息 ， 在 这 个 配置 对 象 中 设置 的 信息 ， 会 覆盖 系统 默认 的 配置 。 

RDD 五 大 特性 : 

(1) 分 区 列表 (a list of partitions)。Spark RDD 是 被 分 区 的 ， 每 一 个 分 区 都 会 被 一 个 计 
算 任 务 (Task) 处 理 , 分 区 数 决 定 并 行 计算 数量 , RDD 的 并 行 度 默认 从 父 RDD 传 给 子 RDD。 
默认 情况 下 ， 一 个 HDFS 上 的 数据 分 片 就 是 一 个 Partition，RDD 分 片 数 决定 了 并 行 计算 的 力 
度 ,可 以 在 创建 RDD 时 指定 RDD 分 片 个 数 ， 如 果 不 指定 分 区 数量 ， 当 RDD 从 集合 创建 时 ， 
则 默认 分 区 数量 为 该 程序 所 分 配 到 的 资源 的 CPU 核 数 ( 每 个 Core 可 以 承载 2~4 个 Partition)， 
如 果 是 从 HDFS 文件 创建 ， 默 认为 文件 的 Block 数 。 

(2) 每 一 个 分 区 都 有 一 个 计算 函数 〈a function for computing each split)。 每 个 分 区 都 会 
有 计算 函数 , Spark 的 RDD 的 计算 函数 是 以 分 片 为 基本 单位 的 , 每 个 RDD 都 会 实现 compute 
函数 ， 对 具体 的 分 片 进 行 计算 ，RDD 中 的 分 片 是 并 行 的 ， 所 以 是 分 布 式 并 行 计算 。 有 一 点 非 
常 重要 ， 就 是 由 于 RDD 有 前 后 依赖 关系 ， 遇 到 宽 依 赖 关 系 ， 例 如 ， 遇 到 reduceBykey 等 宽 依 
赖 操作 的 算 子 ，Spark 将 根据 宽 依 赖 划分 Stage，Stage 内 部 通过 Pipeline 操作 ， 通 过 Block 
Manager 获取 相关 的 数据 ， 因 为 具体 的 split 要 从 外 界 读数 据 ， 也 要 把 具体 的 计算 结果 写 入 外 
界 ， 所 以 用 了 一 个 管理 器 ， 具 体 的 split 都 会 映射 成 BlockManager 的 Block， 而 具体 split 会 
被 函数 处 理 ， 函 数 处 理 的 具体 形式 是 以 任务 的 形式 进行 的 。 

(3) 依赖 于 其 他 RDD 的 列表 (a list of dependencies on otherRDDs)。RDD 的 依赖 关系 ， 
由 于 RDD 每 次 转换 都 会 生成 新 的 RDD， 所 以 RDD 会 形成 类 似 流 水 线 的 前 后 依赖 关系 ， 当 
然 , 宽 依赖 就 不 类 似 于 流水 线 了 , 宽 依赖 后 面 的 RDD 具体 的 数据 分 片 会 依赖 前 面 所 有 的 RDD 
的 所 有 的 数据 分 片 ， 这 时 数据 分 片 就 不 进行 内 存 中 的 Pipeline， 这 时 一 般 是 跨 机 器 的 。 因 为 
有 前 后 的 依赖 关系 ， 所 以 当 有 分 区 数据 丢失 的 时 候 ，Spark 会 通过 依赖 关系 重新 计算 ， 算 出 
丢失 的 数据 ， 而 不 是 对 RDD 所 有 的 分 区 进行 重新 计算 。RDD 之 间 的 依赖 有 两 种 ， 窜 依赖 
(Narow Dependency)、 宽 依赖 (Wide Dependency)。RDD 是 Spark 的 核心 数据 结构 ， 通 过 
RDD 的 依赖 关系 形成 调度 关系 。 通 过 对 RDD 的 操作 形成 整个 Spark 程序 。 

RDD 有 Narrow Dependency 和 Wide Dependency 两 种 不 同类 型 的 依赖 ， 其 中 的 Narow 
Dependency 指 的 是 每 一 个 parent RDD 的 Partition 最 多 被 child RDD 的 一 个 Partition 所 使 用 ， 
而 Wide Dependency 指 的 是 多 个 child RDD 的 Partition 会 依赖 于 同一 个 parent RDD 的 
Partition。 可 以 从 两 个 方面 来 理解 RDD 之 间 的 依赖 关系 : 一 方面 是 该 RDD 的 parent RDD 是 
什么 另 一 方面 是 依赖 于 parent RDD 的 哪些 Partitions; 根据 依赖 于 parent RDD 的 Partitions 
的 不 同情 况 ，Spark 将 Dependency 分 为 宽 依赖 和 窒 依 赖 两 种 。Spark 中 宽 依 赖 指 的 是 生成 的 
RDD 的 每 一 个 partition 都 依赖 于 父 RDD 的 所 有 partition, 宽 依 赖 典 型 的 操作 有 groupByKey、 
sortByKey 等 ， 宽 依赖 意味 着 shuffle 操作 ， 这 是 Spark 划分 Stage 边界 的 依据 ，Spark 中 宽 依 
赖 支持 两 种 Shuffle Manager, 即 HashShuffleManager 和 SortShuffleManager, 前 者 是 基于 Hash 
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的 Shuffle 机 制 ,后 者 是 基于 排序 的 Shuffle 机 制 .Spark 2.2 现 在 的 版 本 中 已 经 没有 Hash Shuffle 
的 方式 。 

(4) key-value 数据 类 型 的 RDD 分 区 器 (-Optionally,a Partitioner for key-value RDDS )， 
控制 分 区 策略 和 分 区 数 。 每 个 key-value 形式 的 RDD 都 有 Partitioner 属性 ， 它 决定 了 RDD 如 
何 分 区 。 当 然 ，Partition 的 个 数 还 决定 每 个 Stage 的 Task 个 数 。RDD 的 分 片 函数 ， 想 控制 
RDD 的 分 片 函数 的 时 候 可 以 分 区 (Partitioner) 传 入 相关 的 参数 ， 如 HashPartitioner、 
RangePartitioner， 它 本 身 针 对 key-value 的 形式 ， 如 果 不 是 key-value 的 形式 ， 它 就 不 会 有 具 
体 的 Partitioner。Partitioner 本 身 决定 了 下 一 步 会 产生 多 少 并 行 的 分 片 ， 同 时 ， 它 本 身 也 决定 
了 当前 并 行 (parallelize》Shuffle 输出 的 并 行 数据 ， 从 而 使 Spark 具有 能 够 控制 数据 在 不 同 节 
点 上 分 区 的 特性 ， 用 户 可 以 自 定义 分 区 策略 ， 如 Hash 分 区 等 。Spark 提供 了 “partitionBy” 
运算 符 ， 能 通过 集群 对 RDD 进行 数据 再 分 配 来 创建 一 个 新 的 RDD。 

(5) 每 个 分 区 都 有 一 个 优先 位 置 列表 (-Optionally,a list of preferred locations to compute 
each split on)。 它 会 存储 每 个 Partition 的 优先 位 置 ， 对 于 一 个 HDFS 文件 来 说 ， 就 是 每 个 
Partition 块 的 位 置 。 观 察 运行 spark 集群 的 控制 台 会 发 现 Spark 的 具体 计算 ， 具体 分 片 前 ， 它 
已 经 清楚 地 知道 任务 发 生 在 什么 节点 上 ， 也 就 是 说 ， 任 务 本 身 是 计算 层面 的 、 代 码 层面 的 ， 
代码 发 生 运算 之 前 已 经 知道 它 要 运算 的 数据 在 什么 地 方 ， 有 具体 节点 的 信息 。 这 就 符合 大 数 
据 中 数据 不 动 代 码 动 的 特点 。 数 据 不 动 代 码 动 的 最 高 境界 是 数据 就 在 当前 节点 的 内 存 中 。 这 
时 有 可 能 是 memory 级 别 或 Alluxio 级 别 的 ，Spark 本 身 在 进行 任务 调度 时 候 ， 会 尽 可 能 将 任 
务 分 配 到 处 理 数据 的 数据 块 所 在 的 具体 位 置 。 据 Spark 的 RDD.Scala 源码 函数 
getPreferredLocations 可 知 ， 每 次 计算 都 符合 完美 的 数据 本 地 性 。 

RDD 类 源码 文件 中 的 4 个 方法 和 一 个 属性 对 应 上 述 曾 述 的 RDD 的 5 大 特性 。 

RDD.scala 的 源码 如 下 。 





了 
2 
< 局 * :: DeveloperApi :: 
2 * 通过 子 类 实现 给 定 分 区 的 计算 
*/ 
6 @DeveloperApi 
oe def compute(split: Partition, context: TaskContext): Iterator[T] 
8. 
9. /#* 
* ”通过 子 类 实现 ， 返 回 一 个 RDD 分 区 列表 ， 这 个 方法 仅 只 被 调用 一 次 ， 它 是 安全 地 执行 一 次 
*# ” 耗 时 计算 数组 中 的 分 区 必须 符合 以 下 属性 设置 
10. * "rdd.partitions.zipWithIndex.forall { case (partition, index) => 
* partition.index == index }"' 
TE */ 
12. protected def getPartitions: Array[Partition] 
EE 
AE A 
* 返 回 对 父 RDD 的 依赖 列表 ， 这 个 方法 仅 只 被 调用 一 次 ， 它 是 安全 地 执行 一 次 耗 时 计算 
15e */ 
16. protected def getDependencies: Seq[Dependency[ ]] = deps 
ds 
8 /ww 
* 可 选 的 ， 指 定 优先 位 置 ， 输 入 参数 是 split 分 片 ， 输 出 结果 是 一 组 优先 的 节点 位 置 
全 */ 
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20. protected def getPreferredLocations(split: Partition): Seq[String] = Nil 


21> 
22. ” /** 可 选 的 ， 通 过 子 类 来 实现 。 指 定 如 何 分 区 */ 
2 @transient val partitioner: Option[Partitioner] = None 


其 中 ，TaskContext 是 读 取 或 改变 执行 任务 的 环境 ， 用 org.apache.spark.TaskContext.get() 
可 返回 当前 可 用 的 TaskContext， 可 以 调用 内 部 的 函数 访问 正在 运行 任务 的 环境 信息 。 
Partitioner 是 一 个 对 象 ， 定 义 了 如 何在 key-Value 类 型 的 RDD 元 素 中 用 Key 分 区 ， 从 0 到 
numpPartitions-1 区 间 内 映射 每 一 个 Key 到 Partition ID 。Partition 是 一 个 RDD 的 分 区 标识 符 。 
Partition.scala 的 源码 如 下 。 

ee Partition extends Serializable { 


* 获取 父 RDD 的 分 区 索引 
*/ 








def index: Int 


// 最 好 默认 实现 HashCode 
override def hashCode(): Int = index 
override def equals (other: Any): Boolean = super.equals (other) 


Fo~awm 必 w 


1 


3.1.2 DataSet 的 定义 及 内 部 机 制 剖 析 


DataSet 是 可 以 并 行使 用 函数 或 关系 操作 转换 特定 域 对 象 的 强 类 型 集合 。 每 个 DataSet 有 

-个 非 类 型 化 的 DataFrame。DataFrame 是 Dataset[Row] 的 别名 。DataSet 中 可 用 的 算 子 分 为 

转换 算 子 和 行动 算 子 。 转 换算 子 可 以 产生 新 的 DataSet; 行动 算 子 将 触发 计算 和 返回 结果 。 转 

换算 子 包 括 map、filter、select 和 聚集 算 子 ， 如 groupBy。 行 动 算 子 包 括 count、show， 或 者 
将 数据 保存 到 文件 系统 中 。 

DataSet 是 “ 懒 加载 ” 的 , 即 只 有 在 行动 算 子 被 触发 时 , 才 进 行 计算 操作 。 本 质 上 , DataSet 
表示 一 个 逻辑 计划 ， 它 描述 了 生成 数据 所 需 的 计算 。 当 行动 算 子 被 触发 时 ，Spark 查询 优化 
器 将 优化 逻辑 计划 ， 生 成 一 个 并 行 、 分 布 式 有 效 执行 的 物理 计划 。 使 用 explain 函数 可 以 查看 
逻辑 计划 以 及 优化 的 物理 计划 。 

为 了 有 效 地 支持 特定 领域 的 对 象 ， 编 码 器 [Encoder] 是 必需 的 。 编 码 器 将 特定 类 型 T 转换 
为 Spark 的 内 部 类 型 。 例 如 ， 给 定 一 个 类 Person 有 两 个 属性 ， 包 括 “ 名 字 ” (string) 和 “年 
龄 ” (int) ， 编 码 器 告诉 Spark 在 运行 生成 代码 时 将 Person 对 象 序列 化 成 二 进 制 数据 。 二 进 
制 数 据 通常 占用 更 少 的 内 存 以 及 更 优化 的 数据 处 理 效率 〈 如 列 存储 格式 ) 。 可 以 使 用 schema 
函数 来 查看 了 解数 据 的 内 部 二 进 制 结构 。 

通常 有 两 种 创建 数据 集 Dataset 的 方法 。 

方法 一 :最 常见 的 方式 是 Spark 在 SparkSession 中 使 用 read 功能 读 入 存储 系统 中 的 文件 。 
例如 ，Scala 版 本 : 可 以 使 用 spark.read.parquet 方式 读 入 parquet 格式 的 文件 ， 使 用 as 方法 转 
换 为 [Person] 数 据 类 型 的 DataSet。Java 版 本 : 使 用 spark.read.parquet 方式 读 入 parquet 格式 的 
文件 ， 在 as 方法 中 使 用 编码 器 对 Person.class 数据 类 型 进行 编码 ， 生 成 DataSet。 


OO 
2. * val people = spark.read.parquet("...").as[Person] //Scala 
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:全 * Dataset<Person> people = spark.read() .parquet ("...") .as (Encoders 
.bean (Person.class)); //Java 
| 


方法 二 : DataSet 也 可 以 通过 现 有 DataSet 进行 转换 创建 。 例 如 ， 在 现 有 的 DataSet 中 使 
用 过 滤 算 子 ， 创 建 一 个 新 的 数据 集 。 下 面 看 一 个 生成 新 DataSet 的 例子 。Scala 版 本 : 在 已 有 
的 Dataset[Person] 中 使 用 map 转换 函数 ， 获 取 Person 中 的 姓名 ， 将 生成 新 的 Dataset[String]; 
Java 版 本 : 在 已 有 的 数据 集 Dataset<String> 中 使 用 map 转换 函数 ， 通 过 (Person p) -> pname 
获取 Person 中 的 姓名 ， 编 码 器 指定 姓名 属性 的 类 型 为 String 类 型 ， 生 成 新 的 姓名 的 数据 集 
Dataset<String>。(Person p) -> p.name 这 种 写法 为 Lambda 表达 式 ， 这 是 Java 8 之 后 才 有 的 新 











Ds ww Et 
* val names = people.map(_.name) 
// 在 Scala 中 ，names 是 一 个 String 类 型 的 DataSet 
3. * Dataset<String> names = people.map((Person p) -> p.name, Encoders. 
STRING) ) 
a //in Java 8 
ee 


通过 各 种 特定 领域 的 语言 (DSL) 定义 的 功能 : ”Dataset (类 ) , [Column] 和 [functions] 
等 非 类 型 化 数据 集 的 操作 也 可 以 。 这 些 操作 非常 类 似 于 R 或 Python 语言 在 数据 表 中 的 抽象 
操作 。 在 scala 中 ， 我 们 使 用 apply 方法 ， 从 people 的 数据 集中 选择 “年 龄 ”这 一 列 ， 在 Java 
中 使 用 "col" 方 法 ， 通 过 people.col("age") 获 取 到 年 龄 列 。 


1. * 从 DataSet 中 选择 一 列 ， 在 Scala 中 使 用 apply 方法 ， 在 Java 中 使 用 col 方法 
Dt!l 

3. * val ageCol = people("age") // 在 Scala 中 

4. * Column ageCol = people.col ("age"); // 在 Java 中 

SE 


注意 ，[Column] 类 型 也 可 以 通过 它 的 各 种 函数 来 操作 。 例 如 ， 以 下 代码 在 人 员 数 据 集中 
创建 一 个 新 的 列 , 每 个 人 的 年 龄 增加 10。 在 Scala 中 使 用 的 方法 是 people("age") + 10; 在 Java 
中 使 用 plus 方法 。 


:el 

2 * ”// 下 面 创建 一 个 新 的 列 ， 每 个 人 的 年 龄 增加 10 

3. * people("age") + 10 // 在 Scala 中 
4. * people.col("age") .plus (10); // 在 Java 中 
5 = 


下 面 是 一 个 更 具体 的 例子 : 使 用 spark.read.parquet 分 别 读 入 parquet 格式 的 人 员 数 据 及 
部 门 数据 ， 过 滤 出 年 龄 大 于 30 岁 的 人 员 , 根据 部 门 ID 和 部 门 数 据 进行 join， 然后 按照 姓名 、 
性 别 分 组 ， 再 使 用 agg 方法 ,调用 内 置 函数 avg 计算 出 部 门 中 的 平均 工资 、 人 员 的 最 大 年 龄 。 
Scala 版 本 代码 如 下 。 
* {{{ 

// 使 用 SparkSession 创建 Dataset [Row] 


* 
* val people = spark.read.parquet ("...") 

* val department = spark.read.parquet ("...") 
来 











OPPODP 
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;> * people.filter("age > 30") 

3 学 -join (department，Ppeople ("dqeptId") === department ("id")) 
ys bs -groupBy (department ("name"), "gender") 

上 导 * -agg (avg (people ("salary")), max(people("age"))) 
a 


以 上 例子 的 Java 版 本 代码 如 下 。 


J a 

2. * //To create Dataset<Row> using SparkSession 

区 * Dataset<Row> people = spark.read() .parquet ("..."); 

4. * Dataset<Row> department = spark.read() .parquet ("..."); 

5 | 来 

6 * people.filter("age".gt (30)) 

Ta .join (department, people.col ("deptId") .equalTo (department ("id"))) 
i .groupBy (department .col ("name"), "gender") 

9 二 这 -agg (avg (people.col ("salary")), max(people.col("age"))); 

U0 


3.2 RDD 弹性 特性 七 个 方面 解析 


RDD 作为 弹性 分 布 式 数据 集 ， 它 的 弹性 具体 体现 在 以 下 七 个 方面 。 
1. 自动 进行 内 存 和 磁盘 数据 存储 的 切换 


Spark 会 优先 把 数据 放 到 内 存 中 ， 如 果 内 存 实在 放 不 下 ， 会 放 到 磁盘 里 面 ， 不 但 能 计算 
内 存放 下 的 数据 ， 也 能 计算 内 存放 不 下 的 数据 。 如 果实 际 数据 大 于 内 存 ， 则 要 考虑 数据 放置 
策略 和 优化 算法 。 当 应 用 程序 内 存 不 足 时 ，Spark 应 用 程序 将 数据 自动 从 内 存 存储 切换 到 磁 
盘存 储 ， 以 保障 其 高 效 运行 。 

2. 基于 Lineage (血统 ) 的 高 效 容错 机 制 


Lineage 是 基于 Spark RDD 的 依赖 关系 来 完成 的 (依赖 分 为 窄 依赖 和 宽 依赖 两 种 形态 )， 
每 个 操作 只 关联 其 父 操作 ， 各 个 分 片 的 数据 之 间 互 不 影响 ， 出 现 错误 时 只 要 恢复 单个 Split 
的 特定 部 分 即 可 。 常 规 容错 有 两 种 方式 ， 一 个 是 数据 检查 点 ;， 另 一 个 是 记录 数据 的 更 新 。 数 
据 检 查 点 的 基本 工作 方式 ， 就 是 通过 数据 中 心 的 网 络 链接 不 同 的 机 器 ， 然 后 每 次 操作 的 时 候 
都 要 复制 数据 集 ， 就 相当 于 每 次 都 有 一 个 复制 ， 复 制 是 要 通过 网 络 传输 的 ， 网 络 带宽 就 是 分 
布 式 的 瓶颈 ， 对 存储 资源 也 是 很 大 的 消耗 。 记 录 数 据 更 新 就 是 每 次 数据 变化 了 就 记录 一 下 ， 
这 种 方式 不 需要 重新 复制 一 份 数据 ， 但 是 比较 复杂 ， 消 耗 性 能 。Spark 的 RDD 通过 记录 数据 
更 新 的 方式 为 何 很 高 效 ? 因为 RDD 是 不 可 变 的 且 Lazy; @ RDD 的 写 操作 是 粗 粒度 的 。 
但 是 ，RDD 读 操作 既 可 以 是 粗 粒 度 的 ， 也 可 以 是 细 粒 度 的 。 


3. Task 如 果 失 败 ， 会 自动 进行 特定 次 数 的 重 试 
默认 重 试 次 数 为 4 次 。TaskSchedulerImpl 的 源码 如 下 所 示 。 
Spark 2.1.1 版 本 的 TaskSchedulerImpl.scala 的 源码 如 下 。 


站 区 private[spark] class TaskSchedulerImpl( 
2 val sc: SparkContext, 

















。36。 


第 3 章 Spark 的 灵魂 : RDD 和 DataSet 








val maxTaskFailures: Int， 
isLocal: Boolean = false) 
extends TaskScheduler with Logging 
| 
def this (sc: SparkContext) =this(sc, sc.conf.get (config.MAX TASK FAILURES)) 


config\package.scala 
private[spark] val MAX TASK FAILURES = 
ConfigBuilder ("spark.task.maxFailures") 
-intConf 
.createWithDefault (4) 


Spark 2.2.0 版 本 的 TaskSchedulerImpl.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 





口 


SoCRRS OO DO 


口 上 段 代码 中 第 1 行 增加 了 类 TaskSchedulerImpl 的 访问 权限 限制 ， 限 于 在 [scheduler] 
包 内 访问 。 


中 第 3 行 之 后 增加 了 黑 名 单列 表 跟踪 变量 ,用 于 跟踪 问题 executors 和 nodes 
节点 


J 凡 。 


上 段 代码 中 第 5 行 之 后 新 增 了 导入 TaskSchedulerImpl. 的 所 有 内 容 。 
上 段 代码 中 第 7 行 this 构造 函数 中 新 增 了 maybeCreateBlacklistTracker 参数 。 


新 增 了 一 个 带 sc、maxTaskFailures、isLocal 参数 的 this 构造 函数 。 


private[spark] class TaskSchedulerImpl] Private[scheduler] ( 
private[scheduler] val blacklistTrackerOpt: Option[BlacklistTracker], 
isLocal: Boolean = false) 

extends TaskScheduler with Logging { 


import TaskSchedulerImp]l. 


def this (sc: SparkContext) = { 
Thist 
TaskSchedulerImpl .maybeCreateBlacklistTracker (sc)) 
} 


def this (sc: SparkContext, maxTaskFailures: Int, isLocal: Boolean) = { 
this( 
SE 
maxTaskFailures, 
TaskSchedulerImpl .maybeCreateBlacklistTracker (sc), 
isLocal = isLocal) 


TaskSchedulerImpl 是 底层 的 任务 调度 接口 TaskScheduler 的 实现 , 这 些 Schedulers 从 每 一 
个 Stage 中 的 DAGScheduler 中 获取 TaskSet， 运 行 它们 ， 尝 试 是 否 有 故障 。DAGScheduler 是 
高 层 调度 ， 它 计算 每 个 Job 的 Stage 的 DAG， 然 后 提交 Stage， 用 TaskSets 的 形式 启动 底层 
TaskScheduler 调度 在 集群 中 运行 。 


4. Stage 如 果 失 败 ， 会 自动 进行 特定 次 数 的 重 试 





#，Stage 对 象 可 以 跟踪 多 个 StageInfo (存储 SparkListeners 监听 到 的 Stage 的 信息 ， 


将 Stage 信息 传递 给 Listeners 或 web UI)。 默 认 重 试 次 数 为 4 次 ， 且 可 以 直接 运行 计算 失败 
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的 阶段 ， 只 计算 失败 的 数据 分 片 ，Stage 的 源码 如 下 所 示 。 
Spark 2.1.1 版 本 的 Stage.scala 的 源码 如 下 。 


5 


26: 


之 8 
308 
3 
三 
3 
34. 
号 5 


36: 
3 


38. 
39. 
40. 
41. 
42. 
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private[scheduler] abstract class Stage( 
Nal dd inty 
val rdd: RDD[ ]， 
val numTasks: Int, 
val parents: List[Stage]， 
val firstJobId: Int, 
val callSite: Callsite) 

extends Logging { 
//partition 的 个 数 


val numPartitions = rdd.partitions.length 


/** 属于 这 个 工作 集 的 Stage */ 
val jobIds = new HashSet[Int] 


val pendingPartitions = new HashSet[Int] 


/## 用 于 此 Stage 的 下 一 个 新 attempt 的 标识 ID */ 
private var nextAttemptId: Int = 0 


val name: String = callSite.shortForm 
val details: String = callSite.longForm 


/** 

* 最 新 的 [StageInfo] object 指针 ， 需 要 被 初始 化 ， 

* 任 何 attempts 都 是 被 创造 出 来 的 ， 因 为 DAGScheduler 使 用 stageInfo 

* 告 诉 SparkListeners 工作 何 时 开始 〈 即 发 生前 的 任何 阶段 已 经 创建 ) 

区 
private var latestInfo: StageInfo = StageInfo.fromStage (this， 
nextAttemptId) 


/** 
* 设 置 stage attempt IDs 当 失 败 时 可 以 读 取 失败 信息 ， 
* 跟 踪 这 些 失 败 ， 为 了 避免 无 休止 地 重复 失败 
*# 跟 踪 每 一 次 attempt， 以 便 避 免 记录 重复 故障 
* 如 果 从 同一 stage 创建 多 任务 失败 (spark-5945) 
*/ 
private val fetchFailedAttemptIds = new HashSet[Int] 


private[scheduler] def clearFailures() : Unit = { 
fetchFailedAttemptIds.clear() 
} 


/于 水 
* 检查 是 否 应 该 中 止 由 于 连续 多 次 读 取 失败 的 stage 
* 如 果 失 败 的 次 数 超过 允许 的 次 数 ， 此 方法 更 新 失败 stage attempts 和 返回 的 运行 集 
*/ 
Private[scheduler] def failedOonFetchAndShouldAbort (stageAttemptId: 
Int): Boolean = { 
fetchFailedAttemptIds.add (stageAttemptId) 
fetchFailedAttemptIds.size >= Stage.MAX CONSECUTIVE FETCH FAILURES 
} 





/** 在 stage 中 创建 一 个 新 的 attempt */ 
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def makeNewStageAttempt ( 
numPartitionsToCompute: Int, 
taskLocalityPreferences: Seq[Seq[TaskLocation]] = Seq.empty): Unit = { 
val metrics = new TaskMetrics 
metrics.register (rdd.sparkContext) 
latestInfo = StageInfo-fromStage ( 
this, nextAttemptId, Some (numPartitionsToCompute), metrics, 
taskLocalityPreferences) 
nextAttemptId += 1 
} 


/** 返回 当前 stage 中 最 新 的 StageInfo */ 
def latestInfo: StageInfo = latestInfo 


override final def hashCode(): Int = id 


override final def equals (other: Any): Boolean = other match { 
case stage: Stage => stage != null && stage.id == id 
case => false 


} 


/** 返 回 需 要 重新 计算 的 分 区 标识 的 序列 */ 
def findMissingPartitions(): Seq[Int] 


3 


. Private[scheduler] object Stage { 


// 人 允许 一 个 stage 中 止 的 连续 故障 数 
val MAX CONSECUTIVE FETCH FAILURES = 4 


ea 


Spark 2.2.0 版 本 的 Stage.scala 的 源码 与 Spark 2.1.1 版 本 的 Stage.scala 的 源码 相 比 具有 如 


下 特点 。 


口 
口 
是 


上 段 代码 中 第 15 行 删 除 pendingPartitions 变量 。 
上 段 代码 中 第 37 一 40 行 删除 failedOnFetchAndShouldAbort 方法 。 
上 段 代 码 中 第 67 一 70 行 删除 Stage 的 object Stage 对 象 ， 去 掉 了 val MAX 


CONSECUTIVE FETCH FAILURES = 4 的 变量 。 


下 ae 


在 Stage 终止 之 前 允许 的 Stage 连续 尝试 的 次 数 为 4 次 ， 重 试 次 数 参数 从 Spark 2.1.1 版 本 的 
Stage.scala 的 源码 移 到 了 Spark 2.2.0 版 本 的 DAGScheduler scala 的 源码 object DAGScheduler 中 进 


行 定义 。 


/** 
* 在 终止 之 前 允许 的 连续 尝试 的 次 数 
*/ 


private[scheduler] val maxConsecutiveStageAttempts = 
sc.getConf.getInt ("spark.stage.maxConsecutiveAttempts", 
DAGScheduler .DEFAULT MAX CONSECUTIVE STAGE ATTEMPTS) 


private[spark] object DAGScheduler { 
// 在 毫秒 级 别 ， 等 待 读 取 失败 事件 后 就 停止 (在 下 一 个 检测 到 来 之 前 )》; 这 是 一 个 避免 重新 提 


// 交 任务 的 简单 方法 ， 非 读 取 数据 的 map 中 更 多 失败 事件 的 到 来 
val RESUBMIT TIMEOUT = 200 


// 在 终止 之 前 允许 连续 尝试 的 次 数 
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14. val DEFAULT MAX CONSECUTIVE STAGE ATTEMPTS = 4 

人 

Stage 是 Spark Job 运行 时 具有 相同 逻辑 功能 和 并 行 计算 任务 的 一 个 基本 单元 。 Stage 中 所 
有 的 任务 都 依赖 同样 的 Shuffle， 每 个 DAG 任务 通过 DAGScheduler 在 Stage 的 边界 处 发 生 
Shuffle 形成 Stage， 然 后 DAGScheduler 运行 这 些 阶段 的 拓扑 顺序 。 每 个 Stage 都 可 能 是 
ShuffleMapStage， 如 果 是 ShuffleMapStage， 则 跟踪 每 个 输出 节点 (nodes) 上 的 输出 文件 分 
区 , 它 的 任务 结果 是 输入 其 他 的 Stage(s), 或 者 输入 一 个 ResultStage, 若 输 入 一 个 ResultStage， 
这 个 ResultStage 的 任务 直接 在 这 个 RDD 上 运行 计算 这 个 Spark Action 的 函数 (如 count()、 
save() 等 )， 并 生成 shuffleDep 等 字段 描述 Stage 和 生成 变量 ， 如 outputLocs 和 
numAvailableOutputs， 为 跟踪 map 输出 做 准备 。 每 个 Stage 会 有 firstjobid， 确 定 第 一 个 提交 
Stage 的 Job， 使 用 FIFO 调度 时 ， 会 使 得 其 前 面 的 Job 先行 计算 或 快速 恢复 (失败 时 )。 

ShuffleMapStage 是 DAG 产生 数据 进行 Shuffle 的 中 间 阶 段 , 它 发 生 在 每 次 Shuffle 操作 之 前 ， 
可 能 包含 多 个 Pipelined 操作 ，ResultStage 阶段 捕获 函数 在 RDD 的 分 区 上 运行 Action 算 子 计算 
结果 ， 有 些 Stage 不 是 运行 在 RDD 的 所 有 的 分 区 上 ， 例 如 ，frst0、lookup0 等 。SparkListener 是 
Spark 调度 器 的 事件 监听 接口 。 注 意 ， 这 个 接口 随 着 Spark 版 本 的 不 同 会 发 生变 化 。 


5. checkpoint 和 persist (检查 点 和 持久 化 )， 可 主动 或 被 动 触发 


checkpoint 是 对 RDD 进行 的 标记 ,会 产生 一 系列 的 文件 ， 且 所 有 父 依赖 都 会 被 删除 ， 是 
整个 依赖 〈Lineage) 的 终点 。checkpoint 也 是 Lazy 级 别 的 。persist 后 RDD 工作 时 每 个 工作 
节点 都 会 把 计算 的 分 片 结果 保存 在 内 存 或 磁盘 中 ， 下 一 次 如 果 对 相同 的 RDD 进行 其 他 的 
Action 计算 ， 就 可 以 重用 。 

因为 用 户 只 与 Driver Program 交互 , 因此 只 能 用 RDD 中 的 cache0 方 法 去 cache 用 户 能 看 
到 的 RDD。 所 谓 能 看 到 ， 是 指 经 过 Transformation 算 子 处 理 后 生成 的 RDD， 而 某 些 在 
Transformation 算 子 中 Spark 自己 生成 的 RDD 是 不 能 被 用 户 直 接 cache 的。 例如 ,reduceByKey() 
中 会 生成 的 ShufleRDD、MapPartitionsRDD 是 不 能 被 用 户 直 接 cache 的 。 在 Driver Program 
中 设 定 RDD.cache0 后 ， 系 统 怎样 进行 cache? 首 先 ， 在 计算 RDD 的 Partition 之 前 就 去 判断 
Partition 要 不 要 被 cache， 如 果 要 被 cache， 先 将 Partition 计算 出 来 , 然后 cache 到 内 存 。cache 
可 使 用 memory, 如 果 写 到 HDFS 磁盘 的 话 , 就 要 检查 checkpoint。 调用 RDD.cache0 后 , RDD 
就 变 成 persistRDD 了 ， 其 StorageLevel 为 MEMORY_ONLY，persistRDD 会 告知 Driver 说 自 
己 是 需要 被 persist 的 。 此 时 会 调用 RDD .iterator()。 

RDD.scala 的 iterator() 的 源码 如 下 。 

:NG /** 


* RDD 的 内 部 方法 ， 将 从 合适 的 缓存 中 读 取 ， 和 否则 计算 它 
* 这 不 应 该 被 用 户 直接 使 用 ， 但 可 用 于 实现 自 定义 的 子 RDD 








2 让 

3 

4. 

es final def iterator (split: Partition, context: TaskContext) : Iterator[T] 
St 

6, if (storageLevel != StorageLevel.NONE) { 

yA getOrCompute (split, context) 

8 } else { 

9 computeOrReadCheckpoint (split, context) 
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ns 小 
由 
当 RDD .iterator0 被 调用 的 时 候 ， 也 就 是 要 计算 该 RDD 中 某 个 Partition 的 时 候 ， 会 先 去 
cacheManager 那里 获取 一 个 blockId， 然 后 去 BlockManager 里 匹配 该 Partition 是 否 被 
checkpoint 了， 如果 是 ， 那 就 不 用 计算 该 Partition 了 ， 直 接 从 checkpoint 中 读 取 该 Partition 
的 所 有 records 放 入 ArrayBuffer 里 面 。 如 果 没 有 被 checkpoint 过 ， 先 将 Partition 计算 出 来 ， 
然后 将 其 所 有 records 放 到 cache 中 。 总 体 来 说 ,， 当 RDD 会 被 重复 使 用 (不 能 太 大 ) 时 , RDD 
需要 cache。Spark 自动 监控 每 个 节点 缓存 的 使 用 情况 ， 利 用 最 近 最 少 使 用 原则 删除 老 旧 的 数 
据 。 如 果 想 手动 删除 RDD， 可 以 使 用 RDD unpersist() 方 法 。 

此 外 ， 可 以 利用 不 同 的 存储 级 别 存 储 每 一 个 被 持久 化 的 RDD。 例如 ， 它 允许 持久 化 集合 
到 磁盘 上 ， 将 集合 作为 序列 化 的 Java 对 象 持久 化 到 内 存 中 、 在 节点 间 复 制 集合 或 者 存储 集合 
到 Alluxio 中 。 可 以 通过 传递 一 个 StorageLevel 对 象 给 persist0 方 法 设置 这 些 存储 级 别 。cache() 
方法 使 用 默认 的 存储 级 别 -StorageLeveLMEMORY _ ONLY。RDD 根据 useDisk、useMemory、 
useOffHeap、deserialized、replication 5 个 参数 的 组 合 提供 了 常用 的 12 种 基本 存储 ， 完 整 的 存 
储 级 别 介绍 如 下 。 

Spark 1.6.0 版 本 的 StorageLevel.scala 的 源码 如 下 。 











val NONE = new StorageLevel (false, false, false, false) 

val DISK ONLY = new StorageLevel (true, false, false, false) 

val DISK ONLY 2 = new StorageLevel (true, false, false, false, 2) 

val MEMORY ONLY = new StorageLevel (false, true, false, true) 

val MEMORY ONLY 2 = new StorageLevel (false, true, false, true, 2) 
val MEMORY ONLY SER = new StorageLevel (false, true, false, false) 
val MEMORY ONLY SER 2 = new StorageLevel (false, true, false, false, 2) 
val MEMORY AND DISK = new StorageLevel (true, true, false, true) 

val MEMORY AND DISK 2 = new StorageLevel (true, true, false, true, 2) 
val MEMORY AND DISK SER = new StorageLevel (true, true, false, false) 
val MEMORY AND DISK SER 2 = new StorageLevel (true, true, false, false, 2) 
// 堆 外 存储 

val OFF HEAP = new StorageLevel (false, false, true, false) 


Spark 2.2.0 版 本 的 Stage.scala 的 源码 与 Spark 1.6.0 版 本 相 比 具有 如 下 特点 。 

口 上 段 代码 中 第 13 行 堆 外 存储 OFF_HEAP 显 式 指定 副本 的 参数 值 为 1。 

口 OFF HEAP=new StorageLevel(true, true, true, false, 1) 

这 val OFF HEAP = new StorageLevel (true, true, true, false, 1) 

StorageLevel 是 控制 存储 RDD 的 标志 ， 每 个 StorageLevel 记录 RDD 是 否 使 用 memory， 
或 使 用 ExtemalBlockStore 存储 ， 如 果 RDD 脱离 了 memory 或 ExtermalBlockStore， 是 否 扔 掉 
RDD， 是 否 保留 数据 在 内 存 中 的 序列 化 格式 ， 以 及 是 否 复制 多 个 节点 的 RDD 分 区 。 另 外 ， 
org.apache.spark.storage.StorageLevel 是 单 实例 (singleton) 对 象 ， 包含 了 一 些 静 态 常量 和 常用 
的 存储 级 别 ， 且 可 用 singleton 对 象 工厂 方法 StorageLevel(.…) 创 建 定制 化 的 存储 级 别 。 

Spark 的 多 个 存储 级 别 意味 着 在 内 存 利用 率 和 CPU 利用 率 间 的 不 同 权 衡 。 推 荐 通过 下 面 
的 过 程 选 择 一 个 合适 的 存储 级 别 : @ 如 果 RDD 适合 默认 的 存储 级 别 (MEMORY _ ONLY )， 
就 选择 默认 的 存储 级 别 。 因 为 这 是 CPU 利用 率 最 高 的 选项 , 会 使 RDD 上 的 操作 尽 可 能 地 快 。 
@ 如 果 不 适合 用 默认 级 别 ， 就 选择 MEMORY ONLY _SER。 选择 一 个 更 快 的 序列 化 库 提 高 对 
象 的 空间 使 用 率 ， 但 是 仍 能 够 相当 快 地 访问 。@ 除 非 算 子 计算 RDD 花费 较 大 或 者 需要 过 滤 
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大 量 的 数据 ， 不 要 将 RDD 存储 到 磁盘 上 ， 否 则 重复 计算 一 个 分 区 ， 就 会 和 从 磁盘 上 读 取 数 
据 一 样 慢 。 图 如 果 希 望 更 快 地 恢复 错误 ， 可 以 利用 replicated 存储 机 制 ， 所 有 的 存储 级 别 都 可 
以 通过 replicated 计算 丢失 的 数据 来 支持 完整 的 容错 。 另 外 ，replicated 的 数据 能 在 RDD 上 继 
续 运行 任务 ， 而 不 需要 重复 计算 丢失 的 数据 。 在 拥有 大 量 内 存 的 环境 中 或 者 多 应 用 程序 的 环 
境 中 ，Off Heap〔 将 对 象 从 堆 中 脱离 出 来 序列 化 ， 然 后 存储 在 一 大 块 内 存 中 ， 这 就 像 它 存储 
到 磁盘 上 一 样 ， 但 它 仍然 在 RAM 内 存 中 。O 企 Heap 对 象 在 这 种 状态 下 不 能 直接 使 用 ， 须 进 
行 序列 化 及 反 序 列 化 。 序 列 化 和 反 序列 化 可 能 会 影响 性 能 ，Off Heap 堆 外 内 存 不 需要 进行 
GC)。Off Heap 具有 如 下 优势 : Off Heap 运行 多 个 执行 者 共享 的 Alluxio 中 相同 的 内 存 池 ， 
显著 地 减少 GC。 如 果 单 个 的 Executor 骨 溃 ， 绥 存 的 数据 也 不 会 丢失 。 


6. 数据 调度 弹性 ，DAGScheduler、TASKScheduler 和 资源 管理 无 关 


Spark 将 执行 模型 抽象 为 通用 的 有 向 无 环 图 计划 (DAG)， 这 可 以 将 多 Stage 的 任务 串联 
或 并 行 执行 ， 从 而 不 需要 将 Stage 中 间 结 果 输 出 到 HDFS 中 ， 当 发 生 节点 运行 故障 时 ， 可 有 
其 他 可 用 节点 代替 该 故障 节点 运行 。 


7. 数据 分 片 的 高 度 弹性 (coalesce) 


Spark 进行 数据 分 片 时 ， 默 认 将 数据 放 在 内 存 中 ， 如 果 内 存放 不 下 ， 一 部 分 会 放 在 磁盘 
上 进行 保存 。 
RDD.scala 的 coalesce 算 子 代码 如 下 : 


def coalesce (numPartitions: Int, shuffle: Boolean = false, 
partitionCoalescer: Option [PartitionCoalescer] = Option.empty) 
(implicit ord: Ordering[T] = null) 
: RDD[T] = withScope { 
require (numPartitions > 0, s"Number of partitions (SnumPartitions) 
must be positive.") 
6 if (shuffle) { 
I /** 从 随机 分 区 开始 ， 将 元 素 均 匀 分 布 在 输出 分 区 上 */ 
8 . val distributePartition = (index: Int, items: Iterator [T]) => { 
9 
1 
1 














MAODP 


var position = (new Random(index)) .nextInt (numPartitions) 


Ol items.map { t => 
ns // 注 : Key 的 哈 希 码 是 Key 本 身 ，HashPartitioner 分 区 器 将 它 与 总 分 区 数 进行 
// 取 模 运 算 
了 2 
3 position = position + 1 
可 二 (position, t) 
了 } 
16. ys tteratorl(trnt. :TM 
a 
18. // 包 括 一 个 shuffle 步 又， 使 我 们 的 上 游 任务 仍然 是 分 布 式 的 
9 new CoalescedRDD( 
Z0s new ShuffledRDD[Int, T, T] (mapPartitionsWithIndex 
(distributePartition), 
5 new HashPartitioner (numPartitions) ) ， 
2 numPartitions, 
3 partitionCoalescer) .values 
四 } else { 
2 new CoalescedRDD (this, numPartitions, partitionCoalescer) 
6 } 
Sh ¥ 
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例如 , 在 计算 的 过 程 中 , 会 产生 很 多 的 数据 碎片 ， 这 时 产生 一 个 Partition 可 能 会 非常 小 ， 
如 果 一 个 Partition 非常 小 ， 每 次 都 会 消耗 一 个 线程 去 处 理 ， 这 时 可 能 会 降低 它 的 处 理 效率 ， 
需要 考虑 把 许多 小 的 Partition 合并 成 一 个 较 大 的 Partition 去 处 理 ， 这 样 会 提高 效率 。 另 外 ， 
有 可 能 内 存 不 是 那么 多 ， 而 每 个 Partition 的 数据 Block 比较 大 ， 这 时 需要 考虑 把 Partition 变 
成 更 小 的 数据 分 片 ， 这 样 让 Spark 处 理 更 多 的 批 次 ， 但 是 不 会 出 现 OOM。 


3.3 RDD 依赖 关系 


RDD 依赖 关系 为 成 两 种 : 罕 依 赖 (Narrow Dependency) 、 宽 依赖 (Shuffle Dependency) 。 
窄 依赖 表示 每 个 父 RDD 中 的 Partition 最 多 被 子 RDD 的 一 个 Partition 所 使 用 ， 宽 依赖 表示 一 
个 父 RDD 的 Partition 都 会 被 多 个 子 RDD 的 Partition 所 使 用 。 


3.3.1” 窄 依 赖 解析 


RDD 的 窄 依赖 (Narow Dependency) 是 RDD 中 最 常见 的 依赖 关系 ， 用 来 表示 每 一 个 父 
RDD 中 的 Partition 最 多 被 子 RDD 的 一 个 Partition 所 使 用 ， 如 图 3-1 窄 依赖 关系 图 所 示 ， 父 
RDD 有 2 一 3 个 Partition， 每 一 个 分 区 都 只 对 应 子 RDD 的 一 个 Partition (join with inputs 
co-partitioned: 对 数据 进行 基于 相同 Key 的 数值 相 加 )。 


Narrow Dependencies: 


map, filter 


join with inputs 
co-partitioned 





图 3-1 窗 依 赖 关系 图 


窄 依赖 分 为 两 类 ， 第 一 类 是 一 对 一 的 依赖 关系 ， 在 Spark 中 用 OneToOneDependency 来 
表示 父 RDD 与 子 RDD 的 依赖 关系 是 一 对 一 的 依赖 关系 ， 如 map、filter、join with inputs 
co-partitioned; 第 二 类 是 范围 依赖 关系 ， 在 Spark 中 用 RangeDependency 表示 ， 表 示 父 RDD 
与 子 RDD 的 一 对 一 的 范围 内 依赖 关系 ， 如 union。 

OneToOneDependency 依赖 关系 的 Dependency.scala 的 源码 如 下 。 


:3 class OneToOneDependency[T] (rdd: RDDI[T]) extends NarrowDependency[T] 
road 

2 override def getParents (partitionId: Int): List[Int] = List(partitionId) 

3. 1} 
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OneToOneDependency 的 getParents 重 写 方法 引入 了 参数 partitionId， 而 在 具体 的 方法 中 
也 使 用 了 这 个 参数 ， 这 表明 子 RDD 在 使 用 getParents 方法 的 时 候 ， 查 询 的 是 相同 partitionId 
的 内 容 。 也 就 是 说 ， 子 RDD 仅仅 依赖 父 RDD 中 相同 partitionID 的 Partition。 

Spark 罕 依 赖 中 第 二 种 依赖 关系 是 RangeDependency。Dependency.scala 的 RangeDependency 
的 源码 如 下 。 


class RangeDependency[T] (rdd: RDD[T], inStart: Int, outStart: Int, length: Int) 
extends NarrowDependency[T] (rdd) { 





override def getParents (partitionId: Int): List[Int] = { 

if (PartitionId >= outStart && partitionId < outStart + length) { 
List (partitionId - outStart + inStart) 

} else { 
Nil 

h 
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0 
下 

RangeDependency 和 OneToOneDependency 最 大 的 区 别 是 实现 方法 中 出 现 了 outStart、 
length、instart, 子 RDD 在 通过 getParents 方法 查询 对 应 的 Partition 时 , 会 根据 这 个 partitionId 
减 去 插入 时 的 开始 太 ， 青 加 上 它 在 父 RDD 中 的 位 置 ID， 换 而 言 之 ， 就 是 将 父 RDD 中 的 
Partition， 根 据 partitionId 的 顺序 依次 插入 到 子 RDD 中 。 

分 析 完 Spark 中 的 源码 ， 下 边 通 过 两 个 例子 来 讲解 从 实例 角度 去 看 RDD 窄 依赖 输出 的 


对 于 OneToOneDependency， 采 用 map 操作 进行 实验 ， 实 验 代码 和 结果 如 下 所 示 。 


def main (args: Array[String]) { 
val numl = Array(100,80,70) 

val rddnuml = sc.parallelize (numl) 
val mapRdd = rddnuml .map (_*2) 
mapRdd.collect () .foreach (Println) 
} 


ON 心 wwN 


结果 为 200 160 140。 
对 于 RangeDependency， 采 用 union 操作 进行 实验 ， 实 验 代码 和 结果 如 下 所 示 。 


村 def main (args: Array[String]) { 

2. // 创 建 数组 1 

3. val datal= Array("spark","scala","hadoop") 
4. ”// 创 建 数组 2 

5. val data2=Array ("SPARK","SCALA", "HADOOP") 
6. // 将 数组 1 的 数据 形成 RDD1 

时 val rddl = sc.parallelize (datal) 

8. // 将 数组 2 的 数据 形成 RDD2 

9. val rdd2=sc.parallelize (data2) 

10.  // 把 RDD1 与 RDD2 联合 

11. val unionRdd = rddql.union (rdd2) 

12. // 将 结果 收集 并 输出 

13. unionRdd.collect () .foreach (Println) 

3 


结果 为 spark scala hadoop SPARK SCALA HADOOP。 
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3.32 


宽 依赖 解析 


RDD 的 宽 依赖 (Shuffle Dependency) 是 一 种 会 导致 计算 时 产生 Shuffle 操作 的 RDD 操 
作 ， 用 来 表示 一 个 父 RDD 的 Partition 都 会 被 多 个 子 RDD 的 Partition 使 用 ， 如 图 3-2 宽 依赖 
关系 图 中 groupByKey 算 子 操作 所 示 ， 父 RDD 有 3 个 Partition， 每 个 Partition 中 的 数据 会 被 


子 RDD 中 的 两 个 Partition 使 用 。 
一 
一 双 
Bs 一 
ww join with inputs not 


co-partitioned 


图 3-2 宽 依赖 关系 图 


宽 依赖 的 源码 位 于 Dependency.scala 文件 的 ShuffleDependency 方法 中 ，newShuffleId() 


产生 了 新 的 shuffeId， 表 明 宽 依赖 过 程 
的 shuffle 操作 需要 癌 shuffleManager 注册 信 





;要 涉及 shuffle 操作 ， 后 续 的 代码 表示 宽 依 赖 进行 时 





Dependency.scala 的 ShuffleDependency 的 源码 如 下 。 


@DeveloperApi 

class ShuffleDependency[K: ClassTag, V: ClassTag, C: ClassTag] ( 
@transient private val rdd: RDD[ <: Product2[K, V]], 
val partitioner: Partitioner, 
val serializer: Serializer = SparkEnv.get.serializer, 
val keyOrdering: Option[Ordering[K]] = None, 
val aggregator: Option[Aggregator[K, V, C]] = None, 
val mapSideCombine: Boolean = false) 

extends Dependency[Product2[K, V]] { 


override def rdd: RDD[Product2[K, V]] = _rdd.asInstanceOf [RDD[Product2 
[L.A 


private[spark] val keyClassName: String = reflect.classTag[K] . 
runtimeClass .getName 
private[spark] val valueClassName: String = reflect.classTag[V] . 
runtimeClass .getName 
// 如 果 在 PairRDDFunctions 方法 中 使 用 combineBykeyWithClassTag，combiner 
// 类 标签 可 能 是 空 的 
Private[spark] val combinerClassName: Option[String] = 

Option (reflect.classTag[C]) .map(_.runtimeClass.getName) 


val shuffleId: Int = rdd.context.newShuffleId() 
val shuffleHandle: ShuffleHandle = rdd.context.env.shuffleManager. 
registershuffle( 

shufflelId, rdd.partitions.length, this) 


rdd.sparkContext .cleaner.foreach( .registerShuffleForCleanup (this)) 


| 
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Spark 中 宽 依 赖 关系 非常 常见 ， 其 中 较 经 典 的 操作 为 GroupByKey (将 输入 的 key-value 
类 型 的 数据 进行 分 组 ， 对 相同 key 的 value 值 进行 合并 ， 生 成 一 个 tuple2， 如 图 3-3 所 示 )， 
具体 代码 和 操作 结果 如 下 所 示 。 输入 5 个 tuple2 类 型 的 数据 , 通过 运行 产生 3 个 tuple2 数据 。 


def main (args: Array[String]) { 
// 设 置 输入 的 Tuple2 数组 
val data = Array(Tuple2("spark",100) ,Tuple2("spark",95)， 
Tuple2 ("hadoop", 99), Tuple2 ("hadoop", 80) ,Tuple2 ("scala",75)) 
// 将 数组 内 容 转 化 为 RDD 
val rdd = sc.parallelize (data) 
// 对 RDD 进行 groupByKey 操作 
val rddGrouped=rdd.groupByKey () 
// 输 出 结果 
0. rddGrouped.collect.foreach (println) 
b 


操作 结果 如 图 3-3 所 示 。 


[Es 
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(scala, CompactBuffer (75)) 
(spark, CompactBuffer (100，95) ) 
(hadoop, CompactBuffer(99，80) ) 


图 3-3 GroupByKey 结果 


3.4 解析 Spark 中 的 DAG 逻辑 视图 


本 节 讲 解 DAG 生成 的 机 制 ， 通 过 DAG，Spark 可 以 对 计算 的 流程 进行 优化 ; 通过 
WordCounts 的 示例 对 DAG 逻辑 视图 进行 解析 。 


3.4.1 DAG 生成 的 机 制 


在 图 论 中 ， 如 果 一 个 有 向 图 无 法 从 任意 顶点 出 发 经 过 若干 条 边 回 到 该 点 ， 则 这 个 图 是 一 
个 有 向 无 环 图 (DAG 图 )。 而 在 Spark 中 ， 由 于 计算 过 程 很 多 时 候 会 有 先后 顺序 ， 受 制 于 某 
些 任务 必须 比 另 一 些 任 务 较 早 执行 的 限制 ， 我 们 必须 对 任务 进行 排队 ， 形 成 一 个 队列 的 任务 

合 ， 这 个 队列 的 任务 集合 就 是 DAG 图 ， 每 一 个 定点 就 是 一 个 任务 ， 每 一 条 边 代表 一 种 限 

制约 束 (Spark 中 的 依赖 关系 )。 

通过 DAG，Spark 可 以 对 计算 的 流程 进行 优化 ， 对 于 数据 处 理 ， 可 以 将 在 单一 节点 上 进 
行 的 计算 操作 进行 合并 ， 并 且 计 算 中 间 数 据 通 过 内 存 进行 高 效 读 写 ， 对 于 数据 处 理 ， 需 要 涉 
及 Shuffle 操作 的 步骤 划分 Stage， 从 而 使 计算 资源 的 利用 更 加 高 效 和 合理 ， 减 少 计算 资源 的 
等 待 过 程 ， 减 少 计 算 中 间 数 据 读 写 产 生 的 时 间 浪 费 (基于 内 存 的 高 效 读 写 )。 

Spark 中 DAG 生成 过 程 的 重点 是 对 Stage 的 划分 ， 其 划分 的 依据 是 RDD 的 依赖 关系 ， 
对 于 不 同 的 依赖 关系 ,高 层 调度 器 会 进行 不 同 的 处 理 。 对 于 窄 依赖 ,， RDD 之 间 的 数据 不 需要 
进行 Shuffle， 多 个 数据 处 理 可 以 在 同一 台 机 器 的 内 存 中 完成 ， 所 以 窄 依赖 在 Spark 中 被 划分 
为 同一 个 Stage; 对 于 宽 依赖 ， 由 于 Shuffle 的 存在 ， 必 须 等 到 父 RDD 的 Shuffle 处 理 完成 后 ， 
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才能 开始 接 下 来 的 计算 ， 所 以 会 在 此 处 进行 Stage 的 切 分 。 
在 Spark 中 , DAG 生成 的 流程 关键 在 于 回溯 ,在 程序 提交 后 , 高 层 调 度 器 将 所 有 的 RDD 


看 成 是 一 个 











Stage， 然 后 对 此 Stage 进行 从 后 往 前 的 回溯 ， 遇 到 Shuffle 就 断 开 ， 遇 到 窄 依赖， 


则 归并 到 同一 个 Stage。 等 到 所 有 的 步骤 回溯 完成 ， 便 生成 一 个 DAG 图 。 
DAG 生成 的 相关 源码 位 于 Spark 的 DAGSchedulerscala。getOrCreateParentStages 获取 或 
创建 一 个 给 定 RDD 的 父 Stages 列表 ，getOrCreateParentStages 调用 了 getShuffleDependencies 





(rdd), getS 


huffleDependencies 返回 给 定 RDD 的 父 节 点 中 直接 的 Shuffle 依赖 。 


DAGScheduler scala 的 getOrCreateParentStages 的 源码 如 下 。 


[a private def getOrCreateParentStages (rdd: RDD[ ], firstJobId: Int): 
List[Stage] = { 


这 getShuffleDependencies (rdd) .map { shuffleDep => 

3 getOrCreateShuffleMapStage (shuffleDep, firstJobId) 
a }.toList 

5. 3 

6< 

3 

8. private[scheduler] def getShuffleDependencies( 

已 隔 rdd: RDD[_]): HashSet[ShuffleDependency[ , _, _]]={ 
10. Val parents = new HashSet[ShuffleDependency[ , ， ]] 
Ei val visited = new HashSet [RDD[ ]] 

Ep val waitingForVisit = new Stack[RDD[ ] 

3 waitingForVisit.push (rdd) 

本 是 二 while (waitingForVisit.nonEmpty) { 

5 val toVisit = waitingForVisit.pop() 

16. if (!visited(toVisit)) { 

2 visited += toVisit 

18 . toVisit.dependencies .foreach { 

95 case shuffleDep: ShuffleDependency[ ， ， ] => 
2 parents += shuffleDep 

2 case dependency => 

2 waitingForVisit.push (dependency.rdd) 

这 3 } 

24. } 

ps } 

之 和 Parents 

2 | 


3.4.2 ”DAG 逻辑 视图 解析 


过 一 个 简单 计数 案例 讲解 DAG 具体 的 生成 流程 和 关系 。 示 例 代 码 如 下 。 


1 conf = new SparkConf () // 创 建 SparkConf 
nf.setAppName ("Wow, My First Spark App") // 设 置 应 用 名 称 


conf.setMaster ("local")// 在 本 地 运行 
Val sc =new SparkContext (conf) 
val lines = sc.textFile ("C://Users//feng//IdeaProjects//WordCount//src 


//SparkText .txt",1) 


本 节 通 
1 Va 
2 ea 
5 属 
4. 
Se 
6. 
hs 
ds 
9 
1 


// 操 作 1，flatMap 由 1ines 通过 flatMap 操作 形成 新 的 MapPartitionRDD 
val words = lines.flatMap{ lines => lines.split(" ") } 
// 操 作 2，map 由 word 通过 Map 操作 形成 新 的 MapPartitionRDD 


val pairs =words .map { word => (word,1) } 
0. // 操 作 3，reduceByKey (包含 2 步 reduce) 
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11. // 此 步骤 生成 MapPartitionRDD 和 ShuffleRDD 
12. val WordCounts =pairs.reduceByKey( + ) 
13. WordCounts.collect.foreach (Println) 
14, sec-Stop() 
在 程序 正式 运行 前 ,Spark 的 DAG 调度 器 会 将 整个 流程 设 定 为 一 个 Stage, 此 Stage 包含 
3 个 操作 , 5 个 RDD, 分 别 为 MapPartitionRDD ( 读 取 文件 数据 时 )、MapPartitionRDD (flatMap 
操作 )、MapPartitionRDD (map 操作 )、MapPartitionRDD (reduceByKey 的 local 段 的 操作 )、 
ShuffleRDD (reduceByKeyshuffle 操作 )。 
(1) 回溯 整个 流程 , 在 shuffleRDD 与 MapPartitionRDD (reduceByKey 的 local 段 的 操作 ) 
中 存在 shuffle 操作 ， 整 个 RDD 先 在 此 切 开 ， 形 成 两 个 Stage。 
(2) 继续 向 前 回溯 ，MapPartitionRDD (reduceByKey 的 local 段 的 操作 ) 与 MapPartitionRDD 
(map 操作 ) 中 间 不 存在 Shuffle〈 即 两 个 RDD 的 依赖 关系 为 窄 依赖 )， 归 为 同一 个 Stage。 
(3) 继续 回溯 ， 发 现 往 前 的 所 有 的 RDD 之 间 都 不 存在 Shuffle， 应 归 为 同一 个 Stage。 
(4) 回溯 完成 ， 形 成 DAG， 由 两 个 Stage 构成 : 
口 第 一 个 Stage 由 MapPartitionRDD 〈 读 取 文 件数 据 时 ) 、MapPartitionRDD (flatMap 
操作 ) 、MapPartitionRDD (map 操作 ) 、MapPartitionRDD (reduceByKey 的 local 
段 的 操作 ) 构成， 如 图 3-4 所 示 。 


Stage 0 





图 3-4 Stage 0 的 构成 
口 第 二 个 Stage 由 ShufleRDD (reduceByKey Shuffle 操作 ) 构成， 如 图 3-5 所 示 。 
Stage 1 





图 3-5 ”Stage 1 的 构成 
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3.5 RDD 内 部 的 计算 机 制 


RDD 的 多 个 Partition 分 别 由 不 同 的 Task 处 理 .Task 分 为 两 类 :shuffleMapTask resultTask。 
本 节 基 于 源码 对 RDD 的 计算 过 程 进行 深度 解析 。 


3.5.1 Task 解析 


Task 是 计算 运行 在 集群 上 的 基本 计算 单位 。 一 个 Task 负责 处 理 RDD 的 一 个 Partition， 
一 个 RDD 的 多 个 Partition 会 分 别 由 不 同 的 Task 去 处 理 ， 通 过 之 前 对 RDD 的 罕 依 赖 关 系 的 
讲解 , 我们 可 以 发 现在 RDD 的 罕 依 赖 中 , 子 RDD 中 Partition 的 个 数 基本 都 大 于 等 于 父 RDD 
中 Partition 的 个 数 ， 所 以 Spark 计算 中 对 于 每 一 个 Stage 分 配 的 Task 的 数目 是 基于 该 Stage 
中 最 后 一 个 RDD 的 Partition 的 个 数 来 决定 的 。 最 后 一 个 RDD 如 果 有 100 个 Partition, 则 Spark 
对 这 个 Stage 分 配 100 个 Task。 

Task 运行 于 Executor 上 ， 而 Executor 位 于 CoarseGrainedExecutorBackend (JVM 进程 ) 中 。 

Spark Job 中 ， 根 据 Task 所 处 Stage 的 位 置 ， 我 们 将 Task 分 为 两 类 : 第 一 类 为 
shuffleMapTask， 指 Task 所 处 的 Stage 不 是 最 后 一 个 Stage， 也 就 是 Stage 的 计算 结果 还 没有 
输出 ， 而 是 通过 Shuffle 交 给 下 一 个 Stage 使 用 ;第 二 类 为 resultTask， 指 Task 所 处 Stage 是 
DAG 中 最 后 一 个 Stage， 也 就 是 Stage 计算 结果 需要 进行 输出 等 操作 ， 计 算 到 此 已 经 结束 ; 
简单 地 说 ，Spark Job 中 除了 最 后 一 个 Stage 的 Task 为 resultTask， 其 他 所 有 Task 都 为 
shuffleMapTask。 





3.5.2 ”计算 过 程 深度 解析 


Spark 中 的 Job 本 身 内 部 是 由 具体 的 Task 构成 的 ， 基 于 Spark 程序 内 部 的 调度 模式 ， 即 
根据 宽 依 赖 的 关系 ， 划 分 不 同 的 Stage， 最 后 一 个 Stage 依赖 倒数 第 二 个 Stage 等 ， 我 们 从 最 
后 一 个 Stage 获取 结果 ; 在 Stage 内 部 ， 我 们 知道 有 一 系列 的 任务 ， 这 些 任 务 被 提交 到 集群 上 
的 计算 节点 进行 计算 ,计算 节 点 执行 计算 逻辑 时 ， 复 用 位 于 Executor 中 线程 池 中 的 线程 ， 线 
程 中 运行 的 任务 调用 具体 Task 的 ran 方法 进行 计算 ， 此 时 ， 如 果 调 用 具体 Task 的 run 方法 ， 
就 需要 考虑 不 同 Stage 内 部 具体 Task 的 类 型 ，Spark 规定 最 后 一 个 Stage 中 的 Task 的 类 型 为 
resultTask， 因 为 我 们 需要 获取 最 后 的 结果 ， 所 以 前 面 所 有 Stage 的 Task 是 shuffleMapTask。 

RDD 在 进行 计算 前 , Driver 给 其 他 Executor 发 送 消息 , 让 Executor 启动 Task, 在 Executor 
启动 Task 成 功 后 , 通过 消息 机 制 汇报 启动 成 功 信 息 给 Driver。Task 计算 示意 图 如 图 3-6 所 示 。 

详细 情况 如 下 : Driver 中 的 CoarseGrainedSchedulerBackend 给 CoarseGrainedExecutor- 
Backend 发 送 LaunchTask 消息 。 

(1) 首先 反 序 列 化 TaskDescription。 

Spark 2.1.1 版 本 的 CoarseGrainedExecutorBackend.scala 的 receive 的 源码 如 下 。 


de override def receive: PartialFunction[Any, Unit] = { 


。49 。 
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3. case LaunchTask (data) => 


























a 1 (executor == nully € 
5 exitExecutor (1, "Received LaunchTask command but executor was null") 
6. } else { 
es val taskDesc = ser.deserialize[TaskDescription] (data.value) 
8 . logInfo ("Got assigned task " + taskDesc.taskId) 
区 executor .launchTask (this, taskId = taskDesc.taskId, attemptNumber 
= taskDesc.attemptNumber, taskDesc.name, taskDesc.serializedTask) 
10. : 
Driver Executor 
要 到 TaskRunner 在 ThreadPool 运 动 具 
DAGScheduler Driver 发 送 LaunchTask 体 的 Task: 在 bs 
-— 
. 件 、 
ShufflemapTask: 
pw 。 compute 计 算 Partition 运行 Thread 的 ran 方法， 导致 
Tracker 一 一 | 。 shuffleWriter 写 入 具体 文件 Task 的 抽象 方法 runTask 被 调 月 






。 将 MapStatus 发 送 给 Driver 行 具体 的 业务 逻辑 处 
MapOutputTracker ShufmeMapTask|。 在 Task 的 runTask 内 


ResultTask: ee tion 了 计算 的 关键 之 /| 
本 折 在 
| | 根据 前 sc 的 执行 结果 进行 。 在 处 理 的 处 理 内 部 会 类 代 


shufne 后 产生 整个 job 最 后 的 结果 Partition 的 元 素 分 我 们 自 
定义 的 function 进 行 处 理 


中 





















































图 3-6 Task 计算 示意 图 
Spark 2.2.0 版 本 的 CoarseGrainedExecutorBackend.scala 的 receive 的 源码 与 Spark 2.1.1 版 


本 相 比 具 有 如 下 特点 。 


口 上 段 代码 中 第 7 行 调整 为 调用 TaskDescription 的 decode 方 法 ,解析 读 取 dataIn、taskId、 
attemptNumber、executorId、name、index 等 信息 ， 读 取 相 应 的 JAR、 文 件 、 属 性 ， 
返回 TaskDescription 值 。 

口 上 段 代码 中 第 9 行 executor.launchTask 传 入 的 第 二 个 参数 更 新 为 封装 的 taskDesc 值 。 





val taskDesc = TaskDescription.decode (data.value) 


executor.launchTask (this, taskDesc) 


launchTask 中 调用 了 decode 方法 ，TaskDescription.scala 的 decode 的 源码 如 下 。 


def decode (byteBuffer: ByteBuffer): TaskDescription = { 

val dataIn = new DataInputStream(new ByteBufferInputStream (byteBuffer)) 
val taskId = datalIn.readLong () 

val _ attemptNumber = dataln.readInt () 

val executorId = datalIn.readUTF () 

Val name = datalIn.readUTF () 

val index = datalIn.readInt () 


oawm 必 mw 


// 读 文件 


. 
内 
b= 
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10. val taskFiles = deserializeStringLongMap (dataIn) 

de 

和 // 读 取 jars 包 

{这 val taskJars = deserializeStringLongMap (dataIn) 

14. 

15 // 读 取 属 性 

Ls val properties = new Properties () 

汪汪 val numProperties = datalIn.readInt () 

了 了 85 for (i <- 0 until numProperties) { 

9 Val key = datalIn.readUTF () 

0 val valueLength = datalIn.readInt () 

oh Val valueBytes = new Array[Byte] (valueLength) 

2 datalIn.readFully (valueBytes) 

3 properties.setProperty (key, new String(valueBytes, 

StandardCharsets.UTF 8)) 

24. } 

本 

26. // 创 建 一 个 子 缓冲 用 于 序列 化 任务 将 其 变 成 自己 的 缓冲 区 《〈 被 反 序列 化 后 

Ze val serializedTask = byteBuffer.slice() 

28- 

29- new TaskDescription (taskId，attemptNumber，executorId，name，index， 
taskFiles, taskJars, 

30= properties, serializedTask) 

小 

3 


(2) Executor 会 通过 launchTask 执行 Task。 

(3) Executor 的 launchTask 方法 创建 一 个 TaskRunner 实例 在 threadPool 来 运行 具体 
的 Task。 

Spark 2.1.1 版 本 的 Executorscala 的 launchTask 的 源码 如 下 。 


def launchTask( 
context: ExecutorBackend, 
taskId: Long, 
attemptNumber: Int, 
taskName: String, 
: serializedTask: ByteBuffer): Unit = { 
// 调 用 TaskRunner 句柄 创建 TaskRunner 对 象 
val tr = new TaskRunner(context, taskId = taskId, attemptNumber = 
attemptNumber, taskName, serializedTask) 
9. // 将 创建 的 TaskRunner 对 象 放 入 即将 进行 的 堆栈 中 


co ~awm 心 wm 








3 二 runningTasks .put (taskId, tr) 
11. // 从 线程 池 中 分 配 一 条 线程 给 TaskRunner 
Eb threadPool .execute (tr) 
Lt i 
Spark 2.2.0 版 本 的 Executorscala 的 launchTask 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 
特点 。 
口 上 段 代 码 中 第 3 一 6 行 调 整 launchTask 方法 的 第 二 个 参数 : 传 入 封装 的 taskDescription 
任务 描述 信息 。 
口 上 段 代 码 中 第 8 行 构建 TaskRunner 实例 传 入 的 也 是 taskDescription 参数 。 
1 def launchTask (context: ExecutorBackend, taskDescription: 
TaskDescription): Unit = { 
2 val tr = new TaskRunner (context, taskDescription) 


。S1 。 








在 TaskRunner 的 run 方法 首先 会 通过 statusUpdate 给 Driver 发 信息 汇报 自己 的 状态 ， 说 





明 自 己 处 于 mnning 状态 。 同 时 ，TaskRunner 内 部 会 做 一 些 准备 工作 ， 如 反 序 列 化 Task 的 依 





赖 ， 通 过 网 络 获取 需要 的 文件 、Jar 等 ， 然 后 反 序 列 化 Task 本 身 。 
Spark 2.1.1 版 本 的 Executorscala 的 run 方法 的 源码 如 下 。 


override def run(): Unit = { 


/3 


， 克 并 


CAE 


threadId = Thread.currentThread.getId 
Thread.currentThread.setName (threadName) 
val threadMXBean = ManagementFactory.-getThreadMXBean 
Val taskMemoryManager = new TaskMemoryManager (env.memoryManager, 
taskId) 
val deserializeStartTime = System.currentTimeMillis() 
val deserializeStartCpuTime = if (threadMXBean . 
isCurrentThreadCpuTimeSupported) { 

threadMXBean .getCurrentThreadCpuTime 
} else OL 
Thread.currentThread.setContextClassLoader (replClassLoader) 
val ser = env.closureSerializer.newInstance() 
logInfo(s"Running StaskName (TID $taskId)") 

过 statusUpdate 给 Driver 发 信息 汇报 自己 状态 说 明 自 己 是 running 状态 
execBackend.statusUpdate (taskId, TaskState .RUNNING, EMPTY BYTE BUFFER) 
Var taskStart: Long = 0 
Var taskStartCpu: Long = 0 
startGCTime = computeTotalGcTime () 
try { 

序列 化 Task 的 依赖 

val (taskFiles, taskJars, taskProps, taskBytes) = 
Task.deserializeWithDependencies (serializedTask) 


Executor.taskDeserializationProps.set (taskProps) 
updateDependencies (taskFiles, taskJars) 

序列 化 Task 本 身 
task = ser.deserialize[Task[Any]] (taskBytes, Thread.currentThread. 
getContextClassLoader) 
task.localProperties = taskProps 
task.setTaskMemoryManager (taskMemoryManager) 


Spark 2.2.0 版 本 的 Executorscala 的 run 方 法 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 
口 上 段 代码 中 第 20 一 21 行 删 掉 ， 即 删 掉 val (taskFiles, taskJars, taskProps, taskBytes) 
=Task.deserialize WithDependencies(serializedTask)。 

第 23 行 代 码 Executor.taskDeserializationProps.set 方法 的 参数 将 taskProps 调整 为 
taskDescription.properties。 

第 24 行 代 码 updateDependencies 方法 的 参数 将 taskFiles 、taskJars 分 别 调整 为 
taskDescription.addedFiles、taskDescription.addedJars 。 

第 26 行 代 码 serdeserialize 方法 的 第 一 个 参数 将 taskBytes 调整 为 


taskDescription.serializedTask。 


口 


第 27 


行 代码 将 taskProps 调整 为 taskDescription properties。 
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updateDependencies (taskDescription.addedFiles, taskDescription. 

addedJars) 

task = ser.deserialize[Task[Any]]( 
taskDescription.serializedTask, Thread.currentThread. 
getContextClassLoader) 

task.localProperties = taskDescription.properties 


(4) 调用 反 序列 化 后 的 Task.run 方法 来 执行 任务 ， 并 获得 执行 结果 。 
Spark 2.1.1 版 本 的 Executorscala 的 run 方法 的 源码 如 下 。 


oawm 必 wm 


2 
228 
2 
305 
3 
人 


332 
34. 


上 个 
36s 
37s 
38: 
人 39 
40. 


override def run(): Unit = { 
//Task 计算 开始 时 间 
taskStart = System.currentTimeMillis() 
taskStartCpu = if (threadMXBean.isCurrentThreadCpuTimeSupported) { 
threadMXBean .getCurrentThreadCpuTime 
} else OL 
var threwException = true 
val value = try { 
// 运 行 Task 的 run 方法 
val res: Any = task.run( 
taskAttemptId = taskId, 
attemptNumber = attemptNumber, 
metricsSystem = env.metricsSystem) 
threwException = false 
res 
} finally { 
val releasedLocks = env.blockManager.releaseAllLocksForTask 
(taskId) 
Val freedMemory = taskMemoryManager .cleanUpAllAllocatedMemory () 


if (freedMemory > 0 && !threwException) { 
val errMsg = s"Managed memory leak detected; size = $freedMemory 
bytes, TID = $taskId" 
if (conf.getBoolean ("spark.unsafe.exceptiononMemoryLeak", false)){ 
throw new SparkException (errMsg) 
} else { 
logWarning (errMsg) 
} 
1 


if (releasedLocks .nonEmpty && !threwException) { 
Val errMsg = 
s"${releasedLocks.size} block locks were not released by TID 
= $taskId:\n" + 
releasedLocks.mkstring("[", ", ", "]") 
if (conf.getBoolean("spark.storage.exceptionOnPinLeak", 
false)) { 
throw new SparkException (errMsg) 
} else { 
logWarning (errMsg) 
} 
} 
Y 


41. // 计 算 完成 时 间 


42. 


val taskFinish = System.currentTimeMillis() 


。S3 。 
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Spark 2.2.0 版 本 的 Executor.scala 的 mn 方法 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 

口 上 段 代码 中 第 13 行 attemptNumber 调整 为 taskDescription.attemptNumber。 

口 上 段 代 码 中 第 40 行 之 后 新 增 一 段 代码 : 在 任务 完成 前 ,循环 遍历 任务 ， 抓 取 失 败 的 
情况 ， 打 印 日 志 提醒 用 户 业 务 代码 可 能 导致 任务 失败 。 


attemptNumber = taskDescription.attemptNumber, 





task.context .fetchFailed.foreach { fetchFailure => 

5. // 用 户 代 码 在 不 抛 出 任何 错误 的 情况 下 捕获 了 故障 。 可 能 是 用 户 打算 这 样 做 的 (虽然 不 太 可 能 )， 
// 因 此 我 们 将 记录 一 个 错误 并 继续 下 去 

6. logError(s"TID ${taskId} completed successfully though 

internally it encountered " + s"unrecoverable fetch failures! 

Most likely this means user code is incorrectly " + s"swallowing 

Spark's internal ${classOf[FetchFailedException]}", 

fetchFailure) } 


task.run 方法 调用 了 runTask 的 方法 ,而 runTask 方法 是 一 个 抽象 方法 ，runTask 方法 内 部 
会 调用 RDD 的 iterator() 方 法 ， 该 方法 就 是 针对 当前 Task 对 应 的 Partition 进行 计算 的 关键 所 
在 ， 在 处 理 的 方法 内 部 会 迭代 Partition 的 元 素 ， 并 交 给 我 们 自 定义 的 function 进行 处 理 。 
Task.scala 的 run 方法 的 源码 如 下 。 


; 民 final def run( 

了 taskAttemptId: Long, 

2 attemptNumber: Int, 

2 metricsSystem: MetricsSystem): T= { 
Sa 

6- try { 

We runTask (context) 

8. } catch 

9 


task 有 两 个 子 类 ， 分 别 是 ShuffleMapTask 和 ResultTask， 下 面 分 别 对 两 者 进行 讲解 。 
1. ShuffleMapTask 


ShuffleMapTask.scala 的 源码 如 下 。 


4 override def runTask (context: TaskContext): MapStatus = { 

2 // 使 用 广播 变量 反 序列 化 RDD 

3 val threadMXBean = ManagementEFactory.getThreadMXBean 

4 val deserializeStartTime = System-currentTimeMillis() 

号 val deserializeStartCpuTime = if (threadMxBean. 
isCurrentThreadCpuTimeSupported) { 


6 threadMXBean .getCurrentThreadCpuTime 

Ne } else OL 

8. // 创 建 序列 化 器 

昌吉 val ser = SparkEnv.get.closureSerializer.newInstance() 


10. // 反 序列 化 出 RDD 和 依赖 关系 

11. val (rdd, dep) = ser.deserialize[ (RDD[ ], ShuffleDependency[ ， ， 1)]( 

To ByteBuffer.wrap (taskBinary.value), Thread.currentThread. 
getContextClassLoader) 

13. //RDD 反 序列 化 的 时 间 


14. _executorDeserializeTime = System.currentTimeMillis() - deserializeStartTime 
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executorDeserializeCpuTime = if (threadMXBean- 
isCurrentThreadCpuTimeSupported) { 
threadMXBean .getCurrentThreadCpuTime - deserializeStartCpuTime 
} else OL 
// 创 建 Shuffle 的 writer 对象， 用 来 将 计算 结果 写 入 Shuffle 管理 器 
var writer: ShuffleWriter[RAny，RAny] = null 
ty h 


. // 实 例 化 shuffleManager 


val manager = SparkEnv.get.shuffleManager 

// 对 writer 对 象 赋值 
writer =manager .getWriter[Any, Any] (dep.shuffleHandle, partitionId, 
context) 


- // 将 计算 结果 通过 writer 对 象 的 write 方法 写 入 shuffle 过 程 


writer.write (rdd.iterator (partition, context) .asInstanceOf [Iterator[ 
<: Product2[Any, Any]]]) 
writer.stop(success = true) .get 


Leatch 
case e: Exception => 
try { 
if (writer != null) { 


writer.stop(success = false) 
上 
ii eaEchy' 于 
case e: Exception => 
log.debug ("Could not stop writer", e) 
} 
throw e 
i 
} 


首先 ，ShuffleMapTask 会 反 序 列 化 RDD 及 其 依赖 关系 ， 然 后 通过 调用 RDD 的 iterator 
方法 进行 计算 ， 而 iterator 方法 中 进行 的 最 终 运算 的 方法 是 compute()。 
RDD.scala 的 iterator 方法 的 源码 如 下 。 


:0 


final def iterator (split: Partition, context: TaskContext) : Iterator[T] 
= {// 判 断 此 RDD 的 持久 化 等 级 是 否 为 NONE (不 进行 持久 化 ) 
if (storageLevel != StorageLevel.NONE) { 
getOrCompute (split, context) 
} else { 
computeOrReadCheckpoint (split, context) 


其 中 ，RDD.scala 的 computeOrReadCheckpoint 的 源码 如 下 。 


有 


co ~aw 心 wN 


RDD 的 compute 方法 是 一 个 抽象 方法 ， 每 个 RDD 都 需要 


private[spark] def computeOrReadCheckpoint (split: Partition, context: 
TaskContext) : Iterator[T] = 
| 
if (isCheckpointedAndMaterialized) { 
firstParent [T] .iterator (split, context) 
} else { 
compute (split, context) 








的 方法 。 


此 时 ， 选择 查 看 MapPartitionsRDD 已 经 实现 的 compute 方法 ， 可 以 发 现 compute 方法 的 


。S5。 
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实现 是 通过 f 方 法 实现 的 ， 而 f 方 法 就 是 我 们 创建 MapPartitionsRDD 时 输入 的 操作 函数 。 
MapPartitionsRDD.scala 的 源码 如 下 。 


时 Private[spark] class MapPartitionsRDD[U: ClassTag，T: ClassTag] ( 

a var prev: RDDI[T], 

3 f: (TaskContext, Int, Iterator[T]) => Iterator[U]， //(TaskContext, 
partition index, iterator) 


4. PreservesPartitioning: Boolean = false) 

Se extends RDDI[U] (prev) { 

6 

yA override val partitioner = if (preservesPartitioning) firstParent[T] . 
partitioner else None 

8E 

9. override def getPartitions: Arrayl[lPartition] = firstParent[T]. 
partitions 

10.. 

i override def compute (split: Partition, context: TaskContext) : Iterator 
Lo = 

和 f(context, split.index, firstParent[T].iterator(split, context) 

13- 

4 override def clearDependencies() { 

:0 super.clearDependencies () 

16. prev = null 

We 

0s 


全 注意 通过 和 迭代 器 的 不 断 登 如， 将 每 个 RDD 的 小 函数 合并 成 一 个 大 的 函数 流 。 


然后 在 计算 具体 的 Partition 之 后 ， 通 过 shuffleManager 获得 的 shuffleWriter 把 当前 Task 
计算 的 结果 根据 具体 的 shuffleManager 实现 写 入 到 具体 的 文件 中 , 操作 完成 后 会 把 MapStatus 
发 送 给 Driver 端的 DAGScheduler 的 MapOutputTracker。 


2. ResultTask 


Driver 端的 DAGScheduler 的 MapOutputTracker 把 shuffleMapTask 执行 的 结果 交 给 
ResultTask，ResultTask 根据 前 面 Stage 的 执行 结果 进行 shuffle 后 产生 整个 job 最 后 的 结果 。 
ResultTask.scala 的 runTask 的 源码 如 下 。 


本 override def runTask (context: TaskContext): JU = { 

2 // 使 用 广播 变量 反 序列 化 RDD 及 函数 

大 忆 val threadMXBean = ManagementEFactory.getThreadMXBean 
省 去 val deserializeStartTime = System.currentTimeMillis() 
5 val deserializeStartCpuTime = if (threadMxBean. 


isCurrentThreadCpuTimeSupported) { 


6 threadMXBean .getCurrentThreadCpuTime 

Re } else OL 

8 // 创 建 序列 化 器 

项 Val ser = SparkEnv.get.closureSerializer.newInstance() 

了 // 反 序列 RDD 和 func 处 理 函 数 

a val (rdd, func) = ser.deserializel[ (RDD[T], (TaskContext, Iterator[T]) 

= 

2 ByteBuffer .wrap (taskBinary.value), Thread.currentThread. 
getContextClassLoader) 

I executorDeserializeTime = System.currentTimeMillis() — 


deserializeStartTime 
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14. executorDeserializeCpuTime = if (threadMXBean- 
isCurrentThreadCpuTimeSupported) { 

5 threadMXBean .getCurrentThreadCpuTime - deserializeStartCpuTime 

16. } else OL 

7 

18. func (context, rdd.iterator (partition, context)) 

9. } 


而 ResultTask 的 runTask 方法 中 反 序 列 化 生成 func 函数 ,最 后 通过 func 函数 计算 出 最 终 
的 结果 。 


3.6 SparkRDD 容错 原理 及 其 四 大 核心 要 点 解析 


本 节 讲 解 RDD 不 同 的 依赖 关系 〈 宽 依赖 、 罕 依赖 ) 的 Spark RDD 容错 处 理 ， 对 Spark 
框架 层面 容错 机 制 的 三 大 层面 (调度 层 、RDD 血统 层 、Checkpoint 层 ) 及 Spark RDD 容错 
大 核心 要 点 进行 深入 解析 。 


3.6.1 Spark RDD 容错 原理 


RDD 不 同 的 依赖 关系 导致 Spark 对 不 同 的 依赖 关系 有 不 同 的 处 理 方式 。 

对 于 宽 依赖 而 言 ,由 于 宽 依 赖 实质 是 指 父 RDD 的 一 个 分 区 会 对 应 一 个 子 RDD 的 多 个 分 
区 ， 在 此 情况 下 出 现 部 分 计算 结果 丢失 ， 单 一 计算 丢失 的 数据 无 法 达到 效果 ， 便 采用 重新 计 
算 该 步骤 中 的 所 有 数据 ， 从 而 会 导致 计算 数据 重复 ， 对 于 窄 依赖 而 言 ， 由 于 罕 依 赖 实质 是 指 
父 RDD 的 分 区 最 多 被 一 个 子 RDD 使 用 ,在 此 情况 下 出 现 部 分 计算 的 错误 ， 由 于 计算 结果 的 
数据 只 与 依赖 的 父 RDD 的 相关 数据 有 关 ， 所 以 不 需要 重新 计算 所 有 数据 ， 只 重新 计算 出 错 
部 分 的 数据 即 可 。 


3.6.2 ”RDD 容错 的 四 大 核心 要 点 


Spark 框架 层面 的 容错 机 制 , 主要 分 为 三 大 层面 (调度 层 、RDD 血统 层 、Checkpoint 层 )， 
在 这 三 大 层面 中 包括 Spark RDD 容错 四 大 核心 要 点 。 
Stage 输出 失败 ， 上 层 调 度 器 DAGScheduler 重 试 。 
Spark 计算 中 ，Task 内 部 任务 失败 ， 底 层 调度 器 重 试 。 
RDD Lineage 血统 中 窄 依赖 、 宽 依赖 计算 。 
Checkpoint 缓存 。 


.调度 层 (包含 DAG 生 成 和 Task 重 算 两 大 核心 ) 
从 调度 层面 讲 ,错误 主要 出 现在 两 个 方面 ,分 别 是 在 Stage 输出 时 出 错 和 在 计算 时 出 错 。 
1) DAG 生成 层 


Stage 输出 失败 ， 上 层 调度 器 DAGScheduler 会 进行 重 试 ， 如 下 列 源码 所 示 。 
DAGSchedulerscala 的 resubmitFailedStages 的 源码 如 下 。 


OOOO 
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2) Task 计算 层 


private[scheduler] def resubmitFailedStages() { 
// 判 断 是 否 存在 失败 的 Stages 
if (failedStages.size > 0) { 
// 失 败 的 阶段 可 以 通过 作业 取消 删除 ， 如 果 ResubmitFailedstages 事件 已 调度 ， 失 
// 败 将 是 空 值 


logInfo("Resubmitting failed stages") 
clearCacheLocs () 

// 获 取 所 有 失败 Stage 的 列表 
val failedStagesCopy = failedStages.toArray 

// 清 空 failedstages 
failedStages.clear() 

// 对 之 前 获取 的 所 有 失败 的 Stage， 根 据 jobId 排序 后 逐一 重 试 
for (stage <- failedStagesCopy.sortBy( .firstJobId)) { 

submitStage (stage) 

} 

人 

} 





Spark 计算 过 程 中 , 计算 内 部 某 个 Task 任务 出 现 失败 , 底层 调度 器 会 对 此 Task 进行 若干 
次 重 试 (默认 4 次 )。 
TaskSetManager.scala 的 handleFailedTask 的 源码 如 下 。 


ls 


oonoON 





WNPO 


def handleFailedTask (tid: Long, state: TaskState, reason: 
TaskFailedReason) { 
if (!isZombie && reason.countTowardsTaskFailures) { 
taskSetBlacklistHelperOpt .foreach( .updateBlacklistForFailedTask( 
info.host, info.executorId, index)) 
assert (null != failureReason) 
// 对 失败 的 Task 的 numFailures 进行 计数 加 一 
numFailures (index) += 1 
// 判 断 失败 的 Task 计数 是 否 大 于 设 定 的 最 大 失败 次 数 ， 如 果 大 于 ， 则 输出 日 志 ， 并 不 青 重 试 
if (numFailures (index) >= maxTaskFailures) { 
logError ("Task sd in stage gs failed %d times; aborting job" .format( 
index, taskSet.id, maxTaskFailures)) 
abort ("Task sd in stage %s failed %d times, most recent failure: 
Ss\nDriver stacktrace:" 
.format (index, taskSet.id, maxTaskFailures, failureReason), 
failureException) 
return 


} 
. // 如 果 运 行 的 Task 为 0 时 ， 则 完成 Task 步骤 


maybeFinishTaskSet () 


2. RDD Lineage 血 统 层 容 错 


Spark 中 RDD 采 用 高 度 受 限 的 分 布 式 共享 内 存 , 且 新 的 RDD 的 产生 只 能 够 通过 其 他 RDD 
上 的 批量 操作 来 创建 ， 依 赖 于 以 RDD 的 Lineage 为 核心 的 容错 处 理 ， 在 夫 代 计算 方面 比 


Hadoop 快 20 多 倍 ， 同 时 还 可 以 在 5~7s 内 交互 式 地 查询 TB 级 别 的 数据 集 。 








Spark RDD 实现 基于 Lineage 的 容错 机 制 ,基于 RDD 的 各 项 transformation 构成 了 compute 
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chain， 在 部 分 计算 结果 丢失 的 时 候 可 以 根据 Lineage 重新 恢复 计算 。 
口 在 罕 依 赖 中 , 在 子 RDD 的 分 区 丢失 ,要 重 算 父 RDD 分 区 时 , 父 RDD 相应 分 区 的 所 
有 数据 都 是 子 RDD 分 区 的 数据 ， 并 不 存在 见 余 计 算 。 
口 在 宽 依赖 情况 下 ， 丢 失 一 个 子 RDD 分 区 ， 重 算 的 每 个 父 RDD 的 每 个 分 区 的 所 有 数 
据 并 不 是 都 给 丢失 的 子 RDD 分 区 用 的 , 会 有 一 部 分 数据 相当 于 对 应 的 是 未 丢失 的 子 
RDD 分 区 中 需要 的 数据 ， 这 样 就 会 产生 元 余 计算 开销 和 巨大 的 性 能 浪费 。 


3. checkpoint 层 容错 











Spark checkpoint 通过 将 RDD 写 入 Disk 作 检 查 点 ， 是 Spark lineage 容错 的 辅助 ，lineage 
过 长 会 造成 容错 成 本 过 高 ， 这 时 在 中 间 阶 段 做 检查 点 容错 ， 如 果 之 后 有 节点 出 现 问 题 而 丢失 
分 区 ， 从 做 检查 点 的 RDD 开始 重 做 Lineage， 就 会 减少 开销 。 
checkpoint 主要 适用 于 以 下 两 种 情况 : 
口 DAG 中 的 Lineage 过 长 ， 如 果 重 算 ， 开 销 太 大 ， 如 PageRank、ALS 等 。 
口 尤其 适合 于 在 宽 依赖 上 作 checkpoint， 这 个 时 候 就 可 以 避免 为 Lineage 重新 计算 而 带 
来 的 元 余 计 算 。 





3.7 ”Spark RDD 中 Runtime 流程 解析 


本 节 讲 解 Spark 的 Runtime 架构 图 ， 并 从 一 个 作业 的 视角 通过 Driver、Master、Worker、 
Executor 等 角色 透视 Spark 的 Runtime 生命 周期 。 


3.7.1_ Runtime 架构 图 


(1) 从 Spark Runtime 的 角度 讲 , 包括 五 大 核心 对 象 : Master、Worker、Executor、Driver、 
CoarseGrainedExecutorBackend。 

(2) Spark 在 做 分 布 式 集群 系统 设计 的 时 候 : 最 大 化 功能 独立 、 模 块 化 封装 具体 独立 的 
对 象 、 强 内 聚 松 耦合 。Spark 运行 架构 图 如 图 3-7 所 示 。 


Worker Node 


Executor 


Task | | Task 
Cluster Manager 
Worker Node 
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Executor 





Driver Program 






SparkContext 








中 














3-7 Spark 运行 架构 图 
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(3) 当 Driver 中 的 SparkContext 初始 化 时 会 提交 程序 给 Master，Master 如 果 接 受 该 程序 
在 Spark 中 运行 ， 就 会 为 当前 的 程序 分 配 AppID， 同 时 会 分 配 具体 的 计算 资源 。 需 要 特别 注 
意 的 是 ，Master 是 根据 当前 提交 程序 的 配置 信息 来 给 集群 中 的 Worker 发 指令 分 配 具体 的 计 
算 资 源 ， 但 是 ，Master 发 出 指令 后 并 不 关心 具体 的 资源 是 否 已 经 分 配 ， 换 言 之 ，Master 是 发 
指令 后 就 记录 了 分 配 的 资源 ， 以 后 客户 端 再 次 提交 其 他 的 程序 ， 就 不 能 使 用 该 资源 了 。 其 次 
端 是 可 能 会 导致 其 他 要 提交 的 程序 无 法 分 配 到 本 来 应 该 可 以 分 配 到 的 计算 资源 ， 最 终 的 优势 
是 Spark 分 布 式 系统 功能 在 耦合 的 基础 上 最 快 地 运行 系统 〈 和 否则 如 果 Master 要 等 到 资源 最 终 
分 配 成 功 后 才 通知 Driver， 就 会 造成 Driver 阻塞 ， 不 能 够 最 大 化 并 行 计 算 资源 的 使 用 率 ) 。 
需要 补充 说 明 的 是 : Spark 在 默认 情况 下 由 于 集群 中 一 般 都 只 有 一 个 Application 在 运行 ， 所 
有 Master 分 配 资源 策略 的 浆 端 就 没有 那么 明显 了 。 


3.7.2 生命 周期 








本 节 对 Spark Runtime (Driver、Master、Worker、Executor) 内 幕 解密 ， 从 Spark Runtime 
全 局 的 角度 看 Spark 具体 是 怎么 工作 的 ， 从 一 个 作业 的 视角 通过 Driver、Master、Worker、 
Executor 等 角色 来 透视 Spark 的 Runtime 生命 周期 。 
Job 提交 过 程 源码 解密 中 一 个 非常 重要 的 技巧 是 通过 在 spark-shell 中 运行 一 个 Job 来 了 解 
Job 提交 的 过 程 ， 然 后 再 用 源码 验证 这 个 过 程 。 我 们 可 以 在 spark-shell 中 运行 一 个 程序 ， 从 
控制 台 观 察 日 志 。 
1. ,sc.textFile("/1Library/dataforSortedShufffle") .flatMap( .split(" ")).map 
(word => (word, 1) .reduceByKey( + )saveAsTextFile("/library/dataoutput2") 
这 里 我 们 编写 WordCountJobRuntime.scala 代码 ， 从 IDEA 中 观察 日 志 。 读 入 的 数据 源 文 
件 内 容 如 下 。 
1. Hello Spark Hello Scala 
Hello Hadoop 


pe 
3. Hello Flink 
4. Spark is Awesome 


WordCountJobRuntime.scala 的 代码 如 下 。 
package com.dt.spark.sparksql 


import org.apache.1o0g4j.{Level, Logger} 
import org.apache.spark.{SparkConf, SparkContext} 


/** 
* 使 用 Scala 开发 本 地 测试 的 Spark WordCount 程序 
* Qauthor DT 大 数据 梦 工厂 

9. * 新 浪 微 博 : http://weibo.com/ilovepains/ 

10. */ 

11. object WordCountJobRuntime { 

和 def main (args: Array[String]){ 


: 民 启 Logger .getLogger ("org") .setLevel (Level .ALL) 
14 /** 
和 * 第 1 步 : 创建 Spark 的 配置 对 象 SparkConf， 设 置 Spark 程序 运行 时 的 配置 信息 ， 


* 例如 ， 通 过 setMaster 来 设置 程序 要 链接 的 Spark 集群 的 Master 的 URL， 如 果 设 置 
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* 为 local， 则 代表 Spark 程序 在 本 地 运行 ， 特 别 适合 于 机 器 配置 非常 差 〈 如 只 有 1GB 的 内 
* 存 ) 的 初学 者 
*/ 


val conf = new SparkConf () // 创 建 SparkConf 对 象 
conf.setAppName ("Wow, WordCountJobRuntime!") 


// 设 置 应 用 程序 的 名 称 ， 在 程序 运行 的 监控 界面 可 以 看 到 名 称 
conf.setMaster ("local") // 此 时 ， 程 序 在 本 地 运行 ， 不 需要 安装 Spark 集群 


/** 
* 第 2 步 : 创建 SparkContext 对 象 
* SparkContext 是 Spark 程序 所 有 功能 的 唯一 入 口 ， 采 用 Scala、Java、Python、 
* R 等 ， 都 必须 有 一 个 SparkContext 
* SparkContext 核心 作用 : 初始 化 Spark 应 用 程序 运行 所 需要 的 核心 组 件 ， 包 括 
* DAGScheduler、TaskScheduler、SchedulerBackend， 同 时 还 会 负责 Spark 程序 
* 往 Master 注册 程序 等 
* SparkContext 是 整个 Spark 应 用 程序 中 至 关 重 要 的 一 个 对 象 
A 
Val sc = new SparkContext (conf) 
// 创 建 SparkContext 对 象 , 通过 传 入 SparkConf 
// 实 例 来 定制 Spark 运行 的 具体 参数 和 配置 信息 


/** 
* 第 3 步 : 根据 具体 的 数据 来 源 (如 HDFS、HBase、Local FS、DB、S3 等 ) 通过 
* SparkContext 创建 RDD 
* RDD 的 创建 有 3 种 方式 : 根据 外 部 的 数据 来 源 ( 如 HDFS) 、 根 据 Scala 集合 、 由 其 他 
* 的 RDD 操作 
* 数据 会 被 RDD 划分 为 一 系列 的 Partitions， 分 配 到 每 个 Partition 的 数据 属于 一 
* 个 Task 的 处 理 范畴 
下 


val lines = sc.textFile("data/wordcount/helloSpark.txt") 
/** 


* 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 

* 第 4.1 步 : 将 每 一 行 的 字符 串 拆 分 成 单个 单词 

be 


val words = lines.flatMap { line => line.split(" ")} 
// 对 每 一 行 的 字符 串 进行 单词 拆 分 ， 并 把 所 有 行 的 拆 
// 分 结果 通过 flat 合并 成 为 一 个 大 的 单词 集合 


/** 
* 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 
* ”第 4.2 步 : 在 单词 拆 分 的 基础 上 对 每 个 单词 实例 计数 为 1， 也 就 是 word => (word, 1) 
bh 


val pairs = words.map { word => (word, 1) } 


/** 
* 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 
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* 第 4.3 步 : 在 每 个 单词 实例 计数 为 1 的 基础 上 统计 每 个 单词 在 文件 中 出 现 的 总 次 数 


* 


val wordCountsOdered = pairs.reduceByKey( + ) .saveAsTextFile("data/ 
wordcount/wordCountResult .1o0g") 


while (true){ 


} 


sc.stop() 


} 
外 


在 IDEA 中 运行 ，WordCountJobRuntime 的 运行 结果 保存 在 data/wordcount/ 
wordCountResult.log 目录 的 part-00000 中 。 


1 
2 
< 
4. 
5 
6 
7 


(Awesome, 1) 


(Flink,1 
(Spark,2 
(is,1) 

(Hello,4 
{Scalarl 


) 
) 


) 
) 


(Hadoop, 1) 


在 IDEA 的 控制 台中 观察 WordCountJobRuntime.scala 运行 日 志 ， 这 里 Spark 版 本 是 
version 2.1.0。 其 中 ，MemoryStore 是 从 Storge 内 存 角 度 来 看 的 ，Storge 是 磁盘 管理 和 内 存 管 
理 。 这 里 ，Spark 读 取 了 Hadoop 的 HDFS， 因 此 使 用 了 Hadoop 的 内 容 ， 如 FileInputFormat， 
日 志 中 显示 FileInputFormat: Total input paths to process : 1 说 明 有 一 个 文件 要 人 处理。 


FE 


Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 


17/05/24 
17/05/24 
17/05/24 
17/05/24 
637.2 MB 
17/05/24 


17/05/24 


05:48:20 INFO SparkContext: Running Spark version 2.1.0 
05:48:24 DEBUG DiskBlockManager: Adding shutdown hook 
05:48:24 DEBUG ShutdownHookManager: Adding shutdown hook 
05:48:24 INFO MemoryStore: MemoryStore started with capacity 
05:48:24 INFO SparkEnv: Registering OutputCommitCoordinator 


05:48:27 DEBUG HadoopRDD: Creating new JobConf and caching it 


for later re-use 


. 17/05/24 05:48:27 DEBUG FileInputFormat: Time taken to get FileStatuses: 28 
. 17/05/24 05:48:27 INFO FileInputFormat: Total input paths to process : 1 
. 17/05/24 05:48:27 DEBUG FileInputFormat: Total # of splits generated by 


getSplits: 1, TimeTaken: 48 


在 Spark 中 ， 所 有 的 Action 都 会 触发 至 少 一 个 Job， 在 WordCountJobRuntime.scala 代码 
中 ， 是 通过 saveAsTextFile 来 触发 Job 的 。 在 日 志 中 查看 SparkContext Starting job: 
saveAsTextFile 触发 saveAsTextFile。 紧 接着 交 给 DAGScheduler, 日 志 中 显示 DAGScheduler: 


Registering RDD， 








大 | 





为 这 里 有 两 个 Stage， 从 具体 计算 的 角度 ， 前 面 Stage 计算 的 时 候 保 留 输 





出 。 然 后 是 DAGScheduler 获得 了 job 的 ID (job 0) 。 


> 


2 
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17/05/24 05:48:28 INFO SparkContext: Starting job: saveAsTextFile at 
WordCountJobRuntime.scala:61 
17/05/24 05:48:28 DEBUG SortShuffleManager: Can't use serialized shuffle 
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for shuffle 0 because an aggregator is defined 

3. 17/05/24 05:48:28 INFO DAGScheduler: Registering RDD 3 (map at 
WordCountJobRuntime.scala:55) 

4. 17/05/24 05:48:28 INFO DAGScheduler: Got job 0 (saveAsTextFile at 
WordCountJobRuntime.scala:61) with 1 output partitions 


SparkContext 在 实例 化 的 时 候 会 构造 StandaloneSchedulerBackend (Spark 2.0 版 本 将 之 前 
的 SparkDeploySchedulerBackend 名 字 更 新 为 StandaloneSchedulerBackend) 、DAGScheduler、 
TaskSchedulerImpl、MapOutputTrackerMaster 等 对 象 。 
口 其 中 ，StandaloneSchedulerBackend 负责 集群 计算 资源 的 管理 和 调度 ， 这 是 从 作业 的 
角度 来 考虑 的 ， 注 册 给 Master 的 时 候 ，Master 给 我 们 分 配 资源 ， 资 源 从 Executor 本 
身 转 过 来 向 StandaloneSchedulerBackend 注册 ， 这 是 从 作业 调度 的 角度 来 考虑 的 ， 不 
是 从 整个 集群 来 考虑 ， 整 个 集群 是 Master 来 管理 计算 资源 的 。 
口 DAGScheduler 负责 高 层 调度 (如 Job 中 Stage 的 划分 、 数 据 本 地 性 等 内 容 ) 。 
口 TaskSchedulerImple 负责 具体 Stage 内 部 的 底层 调度 (如 有 具体 每 个 Task 的 调度 、Task 
的 容错 等 ) 。 
口 MapOutputTrackerMaster 负责 Shuffle 中 数据 输出 和 读 取 的 管理 。Shuffle 的 时 候 将 数 
据 写 到 本 地 ， 下 一 个 Stage 要 使 用 上 一 个 Stage 的 数据 ， 因 此 写 数 据 的 时 候 要 告诉 
Driver 中 的 MapOutputTrackerMaster 具体 写 到 哪里 ,下 一 个 Stage 读 取 数据 的 时 候 也 
要 访问 Driver 的 MapOutputTrackerMaster 获取 数据 的 具体 位 置 。 
MapOutputTrackerMaster 的 源码 如 下 。 


:| Private[spark] class MapOutputTrackerMaster(conf: SparkConf, 
区 broadcastManager: BroadcastManager, isLocal: Boolean) 
后 extends MapOutputTracker (conf) { 
DAGScheduler 是 面向 Stage 调度 的 高 层 调 度 实 现 。 它 为 每 一 个 Job 计算 DAG, 跟踪 RDDS 
及 Stage 输出 结果 进行 物化 , 并 找到 一 个 最 小 的 计划 去 运行 Job, 然后 提交 stages 中 的 TaskSets 
到 底层 调度 器 TaskScheduler 提交 集群 运行 ，TaskSet 包含 完全 独立 的 任务 ， 基 于 集群 上 已 存 
在 的 数据 运行 (如 从 上 一 个 Stage 输出 的 文件 ) ， 如 果 这 个 数据 不 可 用 ， 获 取 数 据 可 能 会 失败 。 
Spark Stages 根据 RDD 图 中 Shuffle 的 边界 来 创建 , 如 果 RDD 的 操作 是 罕 依 赖 , 如 mapO 
和 filter0， 在 每 个 Stages 中 将 一 系列 tasks 组 合成 流水 线 执行 。 但 是 ， 如 果 是 宽 依 赖 ，Shuffle 
依赖 需要 多 个 Stages (上 一 个 Stage 进行 map 输出 写 入 文件 ， 下 一 个 Stage 读 取 数据 文件 )， 
每 个 Stage 依赖 于 其 他 的 Stage， 其 中 进行 多 个 算 子 操作 。 算 子 操作 在 各 种 类 型 的 RDDS《〈 如 
MappedRDD、FilteredRDD) 的 RDD.compute0 中 实际 执行 。 

在 DAG 阶段 ，DAGScheduler 根据 当前 缓存 状态 决定 每 个 任务 运行 的 位 置 ， 并 将 任务 传 
递 给 底层 的 任务 调度 器 TaskScheduler。 此 外 ， 它 处 理 Shuffle 输出 文件 丢失 的 故障 ， 在 这 种 
情况 下 ， 以 前 的 Stage 可 能 需要 重新 提交 。Stage 中 不 引起 Shuffle 文件 丢失 的 故障 由 任务 调 
度 器 TaskScheduler 处 理 ， 在 取消 整个 Stage 前 ， 将 重 试 几 次 任务 。 

当 浏览 这 个 代码 时 ， 有 几 个 关键 概念 : 

口 Jobs 作业 (表现 为 [ActiveJob]〉 作 为 顶级 工作 项 提交 给 调度 程序 。 当 用 户 调用 一 个 
action， 如 count0 算 子 ，Job 将 通过 submitJob 进行 提交 。 每 个 作业 可 能 需要 执行 多 个 
stages 来 构建 中 间 数 据 。 

口 Stages ([Stage]) 是 一 组 任务 的 集合 ， 在 相同 的 RDD 分 区 上 ， 每 个 任务 计算 相同 的 功 
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能 , 计算 Jobs 的 中 间 结 果 。Stage 根据 Shuffle 划分 边界 , 我 们 必须 等 待 前 一 阶段 Stage 
完成 输出 。 有 两 种 类 型 的 Stage: [ResultStage] 是 执行 action 的 最 后 一 个 Stage， 
[ShuffleMapStage] 是 Shuffle Stages 通过 map 写 入 输出 文件 中 的 。 如 果 Jobs 重用 相同 
的 RDDs，Stages 可 以 跨越 多 个 Jobs 共享 。 

口 Tasks 任务 是 单独 的 工作 单位 ， 每 个 任务 发 送 到 一 个 分 布 式 节点 。 

口 缓存 跟踪 : DAGScheduler 记录 哪些 RDDS 被 缓存 ， 避 免 重 复 计算 ， 以 及 记录 Shuffle 
map Stages 已 经 生成 的 输出 文件 ， 避 免 在 map 端 重 新 计算 。 

口 数据 本 地 化 : DAGScheduler 基于 RDDS 的 数据 本 地 性 、 缓 存 位 置 ， 或 Shuffle 数据 
在 Stage 中 运行 每 一 个 任务 的 Task。 

口 清理 : 当 依 赖 于 它们 的 运行 作业 完成 时 ， 所 有 数据 结构 将 被 清除 ， 防 止 在 长 期 运行 
的 应 用 程序 中 内 存 泄漏 。 

口 为 了 从 故障 中 恢复 ， 同 一 个 Stage 可 能 需要 运行 多 次 ， 这 被 称 为 重 试 “attempts”。 
如 在 上 一 个 Stage 中 的 输出 文件 丢失 ，TaskScheduler 中 将 报告 任务 失败 ， 
DAGScheduler 通过 检测 CompletionEvent 与 FetchFailed 或 ExecutorLost 事件 重新 提 
交 丢 失 的 Stage。DAGScheduler 将 等 待 看 是 否 有 其 他 节点 或 任务 失败 ， 然 后 在 丢失 
计算 任务 的 阶段 Stage 中 重新 提交 TaskSets。 在 这 个 过 程 中 ， 可 能 须 创建 之 前 被 清理 
的 Stage。 旧 Stage 的 任务 仍然 可 以 运行 ， 但 必须 在 正确 的 Stage 中 接收 事件 并 进行 

做 改变 或 者 回顾 时 需要 看 的 清单 有 : 

口 Job 运行 结束 时 ， 所 有 的 数据 结构 将 被 清理 ， 及 清理 程序 运行 中 的 状态 。 

口 添加 一 个 新 的 数据 结构 时 ,在 新 结构 中 更 新 DAGSchedulerSuite.assertDataStructuresEmpty'， 
包括 新 结构 ， 将 有 助 于 捕获 内 存 泄漏 。 

DAGScheduler.scala 的 源码 如 下 。 














private[spark] 

class DAGScheduler( 
private[scheduler] val sc: SparkContext, 
private[scheduler] val taskScheduler: TaskScheduler, 
listenerBus: LiveListenerBus, 
mapOoutputTracker: MapOutputTrackerMaster, 
blockManagerMaster: BlockManagerMaster, 
env: SparkEnyv, 
clock: Clock = new SystemClock()) 

0. extends Logging { 


POANAONDP 





回 到 运行 日 志 ，SparkContext 在 实例 化 的 时 候 会 构造 StandaloneSchedulerBackend 、 
DAGScheduler、TaskSchedulerImpl、MapOutputTrackerMaster 四 大 核心 对 象 ，DAGScheduler 
获得 Job ID, 日 志 中 显示 DAGScheduler: Final stage: ResultStage 1, Final stage 是 ResultStage; 
Parents of final stage 是 ShufleMapStage，DAGScheduler 是 面向 Stage 的 。 日 志 中 显示 两 个 
Stage: Stage 1 是 Final stage，Stage 0 是 ShuffleMapStage。 

接 下 来 序号 改变 ， 运 行 时 最 左 侧 从 0 开始 ,日 志 中 显示 DAGScheduler: missing: 
List(ShuffleMapStage 0)， 父 Stage 是 ShuffleMapStage，DAGScheduler 调度 时 必须 先 计 算 父 
Stage， 因 此 首先 提交 的 是 ShuffleMapStage 0， 这 里 RDD 是 MapPartitionsRDD， 只 有 Stage 
中 的 最 后 一 个 算 子 是 真正 有 效 的 ，Stage 0 中 的 最 后 一 个 操作 是 map， 因 此 生成 了 
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MapPartitionsRDD。Stage 0 无 父 Stage， 因 此 提交 ， 提 交 时 进行 广播 等 内 容 ， 然 后 提交 作业 。 


se 

2. 17/05/24 05:48:28 INFO DAGScheduler: Final stage: ResultStage 1 
(saveAsTextFile at WordCountJobRuntime.scala:61) 

3. 17/05/24 05:48:28 INFO DAGScheduler: Parents of final stage: List 
(ShuffleMapStage 0) 

4. 17/05/24 05:48:28 INFO DAGScheduler: Missing parents: List 
(ShuffleMapStage 0) 

5. 17/05/24 05:48:28 DEBUG DAGScheduler: submitStage (ResultStage 1) 

6. 17/05/24 05:48:28 DEBUG DAGScheduler: missing: List(ShuffleMapStage 0) 

7. 17/05/24 05:48:28 DEBUG DAGScheduler: submitStage (ShuffleMapStage 0) 

8. 17/05/24 05:48:28 DEBUG DAGScheduler: missing: List() 

9. 17/05/24 05:48:28 INFO DAGScheduler: Submitting ShuffleMapStage 0 
(MapPartitionsRDD[3] at map at WordCountJobRuntime.scala:55), which has 
no missing parents 

10. 17/05/24 05:48:28 DEBUG DAGScheduler: submitMissingTasks (ShuffleMapStage 
0) 

11. 17/05/24 05:48:28 TRACE BlockInfoManager: Task -1024 trying to put 
broadcast 1 


我 们 从 Web UI 的 角度 看 一 下 ， 如 图 3-8 所 示 ，Web UI 中 显示 生成 两 个 Stage: Stage 0、 
Stage 1。 


v DAG Visualization 


Stage 0 





图 3-8 Stage 划分 


日 志 中 显示 DAGScheduler Submitting 1 missing tasks from ShuffleMapStage 0， 
DAGScheduler 提交 作业 ， 显 示 提交 一 个 须 计算 的 任务 ，ShuffleMapStage 在 本 地 运行 是 一 个 
并 行 度 , 交 给 TaskSchedulerImpl 运行 。 这 里 是 一 个 并 行 度 , 提交 底层 的 调度 器 TaskScheduler， 
TaskScheduler 收 到 任务 后 ， 就 发 布 任务 到 集群 中 运行 ， 由 TaskSetManager 进行 管理 : 日 志 中 
显示 TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, localhost executor driver, partition 0, 
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PROCESS LOCAL, 6012 bytes)， 显 示 具 体 运行 的 位 置 ， 及 worker 运行 了 哪些 任务 。 这 呈 
本 地 只 运行 了 一 个 任务 。 


了 17/05/24 05:48:28 INFO DAGScheduler: Submitting ShuffleMapStage 0 
(MapPartitionsRDD[3] at map at WordCountJobRuntime.scala:55), which has 
no missing parents 

17/05/24 05:48:28 DEBUG DAGScheduler: submitMissingTasks (ShuffleMapStage 0) 

17/05/24 05:48:28 INFO DAGScheduler: Submitting 1 missing tasks from 

ShuffleMapStage 0 (MapPartitionsRDD[3] at map at WordCountJobRuntime.scala:55) 

17/05/24 05:48:28 DEBUG DAGScheduler: New pending partitions: Set(0) 

17/05/24 05:48:28 INFO TaskSchedulerImpl: Adding task set 0.0 with 1 tasks 

17/05/24 05:48:28 DEBUG TaskSetManager: Epoch for TaskSet 0.0: 0 

17/05/24 05:48:28 DEBUG TaskSetManager: Valid locality levels for TaskSet 

0.0: NO_PREF, ANY 

. 17/05/24 05:48:28 DEBUG TaskSchedulerImp1: parentName: , name: Taskset 0.0, 

runningTasks: 0 
10. 17/05/24 05:48:28 DEBUG TaskSetManager: Valid locality levels for TaskSet 
0.0: NO_PREF, ANY 
11. 17/05/24 05:48:28 DEBUG SecurityManager: user=null aclsEnabled=false 
ViewAcls=dell viewAclsGroups= 
12. 17/05/24 05:48:28 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 
0, localhost, executor driver, partition 0, PROCESS LOCAL, 6012 bytes) 
13. 17/05/24 05:48:28 INFO Executor: Running task 0.0 in stage 0.0 (TID 0) 
14. 17/05/24 05:48:28 DEBUG Executor: Task 0's epoch is 0 


过 


在 





com 心 wN 


ke 


然后 是 完成 作业 , 日 志 中 显示 TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 327 
ms on localhost (executor driver)， 在 本 地 机 器 上 完成 作业 。 当 Stage 的 一 个 任务 完成 后 ， 
ShuffleMapStage 就 已 完成 。Task 任务 运行 完 后 向 DAGScheduler 汇报 ，DAGScheduler 查看 
曾经 提交 了 几 个 Task， 计 算 Task 的 数量 如 果 等 于 Task 的 总 数量 ， 那 Stage 也 就 完成 了 。 这 
个 Stage 完成 以 后 ， 下 一 个 Stage 开始 运行 。 


2. 17/05/24 05:48:29 INFO Executor: Finished task 0.0 in stage 0.0 (TID 0) . 
1744 bytes result sent to driver 

3. 17/05/24 05:48:29 DEBUG TaskSchedulerImp1: parentName: , name: TaskSet 0.0, 
runningTasks: 0 

4. 17/05/24 05:48:29 DEBUG TaskSetManager: No tasks for locality level NO PREF, 
so moving to locality level ANY 

5. 17/05/24 05:48:29 INFO TaskSetManager: Finished task 0.0 in stage 0.0 (TID 
0) in 327 ms on localhost (executor driver) (1/1) 

6. 17/05/24 05:48:29 INFO TaskSchedulerImp1: Removed TaskSet 0.0, whose tasks 
have all completed, from pool 

7. 17/05/24 05:48:29 DEBUG DAGScheduler: ShuffleMapTask finished on driver 

8. 17/05/24 05:48:29 INFO DAGScheduler: ShuffleMapStage 0 (map at 
WordCountJobRuntime.scala:55) finished in 0.358 s 


ShuffleMapStage 完成 后 ， 将 运行 下 一 个 Stage。 日 志 中 显示 DAGScheduler: looking for 
newly runnable stages， 这 里 一 共有 两 个 Stage，ShuffleMapStage 运行 完成 ， 那 只 有 一 个 
ResultStage 将 运行 .DAGScheduler 又 提交 最 后 一 个 Stage 的 一 个 任务 , 默认 并 行 度 是 继承 的 。 
同样 ， 发 布 任务 给 Executor 进行 计算 。 


2. 17/05/24 05:48:29 INFO DAGScheduler: looking for newly runnable stages 
3. 17/05/24 05:48:29 INFO DAGScheduler: running: Set() 
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17/05/24 05:48:29 INFO DAGScheduler: waiting: Set (ResultStage 1) 
17/05/24 05:48:29 INFO DAGScheduler: failed: Set() 

17/05/24 05:48:29 DEBUG MapOutputTrackerMaster: Increasing epoch to 1 
17/05/24 05:48:29 TRACE DAGScheduler: Checking if any dependencies of 
ShuffleMapStage 0 are now runnable 
17/05/24 05:48:29 TRACE DAGScheduler: running: Set() 

17/05/24 05:48:29 TRACE DAGScheduler: waiting: Set(ResultStage 1) 
17/05/24 05:48:29 TRACE DAGScheduler: failed: Set() 

17/05/24 05:48:29 DEBUG DAGScheduler: submitStage (ResultStage 1) 
17/05/24 05:48:29 DEBUG DAGScheduler: missing: List() 

17/05/24 05:48:29 INFO DAGScheduler: Submitting ResultStage 1 
(MapPartitionsRDD[5] at saveAsTextFile at WordCountJobRuntime.scala:61), 
which has no missing parents 
17/05/24 05:48:29 DEBUG DAGScheduler: submitMissingTasks (ResultStage 1) 
17/05/24 05:48:29 INFO DAGScheduler: Submitting 1 missing tasks from 
ResultStage 二 (MapPartitionsRDD[5] at saveAsTextFile at 
WordCountJobRuntime.scala:61) 

17/05/24 05:48:29 DEBUG DAGScheduler: New pending partitions: Set(0) 
17/05/24 05:48:29 INFO TaskSchedulerImpl: Adding task set 1.0 with 1 tasks 


Task 任务 运行 完 后 向 DAGScheduler 汇报 , DAGScheduler 计算 曾经 提交 了 几 个 Task， 如 
果 Task 的 数量 等 于 Task 的 总 数量 ，ResultStage 也 运行 完成 。 然 后 进行 相关 的 清理 工作 ， 两 
个 Stage (ShuffleMapStage、ResultStage) 完成 ，Job 也 就 完成 。 


17/05/24 05:48:29 DEBUG MapOutputTrackerMaster: Fetching outputs for 
shuffle 0, partitions 0-1 

17/05/24 05:48:29 DEBUG ShuffleBlockFetcherIterator: maxBytesInFlight: 
50331648, targetRequestSize: 10066329 

17/05/24 05:48:29 INFO ShuffleBlockFetcherIterator: Getting 1 non-empty 
blocks out of 1 blocks 

17/05/24 05:48:29 INFO ShuffleBlockFetcherIterator: Started 0 remote 
fetches in 5 ms 

17/05/24 05:48:29 DEBUG ShuffleBlockFetcherIterator: Got local blocks in 
12 ms 

17/05/24 05:48:29 DEBUG TaskMemoryManager: Task 1 release 0.0 B from 
org.apache.spark.util.collection.ExternalAppendonlyMap@3da8eddf 
17/05/24 05:48:29 INFO TaskSetManager: Finished task 0.0 in stage 1.0 (TID 
1) in 409 ms on localhost (executor driver) (1/1) 

17/05/24 05:48:29 INFO TaskSchedulerImp1: Removed TaskSet 1.0, whose tasks 
have all completed, from pool 

17/05/24 05:48:29 INFO DAGScheduler: ResultStage 1 (saveAsTextFile at 
WordCountJobRuntime.scala:61) finished in 0.410 s 

17/05/24 05:48:29 DEBUG DAGScheduler: After removal of stage 1, remaining 
stages = 1 

17/05/24 05:48:29 DEBUG DAGScheduler: After removal of stage 0, remaining 
stages = 0 

17/05/24 05:48:29 INFO DAGScheduler: Job 0 finished: saveAsTextFile at 
WordCountJobRuntime.scala:61, took 1.345921 s 


下 面 看 一 下 WebUI，ShuffleMapStage 中 的 任务 交 给 Executor， 图 3-9 中 显示 了 任务 的 相 


关 信息 ， 





如 Shuffle 的 输出 等 ， 第 一 个 Stage 肯定 生成 Shuffle 的 输出 ， 可 以 看 一 下 最 右 侧 的 


Shuffle Write Size/Records。 图 3-9 中 的 Input Size/Records 是 从 Hdfs 中 读 入 的 文件 数据 。 
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Summary Metrics for 1 Completed Tasks 


Metric Min 25th percentile Median 75th percentile Max 
Duration 04s 04s 04s 04s 04s 
GC Time Oms Oms Oms Oms Oms 
Input Size / Records 68.0B/4 68.0B/4 68.08/4 68.08/4 680B14 
Shufle Write Size / 1040B/7 1040B17 1040B/7 1040B/7 1040B/7 
Records 
~ Aggregated Metrics by Executor 
Executor Task Total Falled Killed Succeeded Input Size / Shuffle Write Size / 
ID * Address Time Tasks Tasks Tasks Tasks Records Records 
driver 192.168.93.1:50663 06s 1 0 0 1 68.0B/4 1040B/7 
Tasks (1) 
Index Executor ID / Gc InputSize/ Write Shuffle Write Size/ 
. ID Attempt Status Locality Level Host Launch Time Duration Time Records Time Records Errors 
0 0 0 SUCCESS PROCESS_LOCAL driver/ 2017/05/25 04s 68.0B/4 14ms 1040B/7 
localhost 05:33:19 
图 3-9 ShuffleMapStage 运行 


接 下 来 看 一 下 第 二 个 Stage。 第 二 个 Stage 同样 显示 Executor 的 信息 ， 
示 Shuffle Read Size/Records。 如 果 在 分 布 式 集群 运 
Executor 计算 ， 在 第 二 个 Stage 中 是 两 个 Executor 计算 ， 因 此 - 
是 远程 的 ， 或 从 远程 节点 拉 取 数据 。ResultStage 最 后 要 产 


Summary Metrics for 1 Completed Tasks 


Metric Min 
Duration 03s 

GC Time Oms 
Output Size / Records 820817 
Shuffle Read Size / 10408/7 
Records 


™ Aggregated Metrics by Executor 


Executor Task 
ip» Address Time 
driver 192.168.93,1:50663 0.4s 

Tasks (1) 

Index Locallty 
“* ID Attempt Status Level 
0 1 0 SUCCESS ANY 


Task 的 运行 解密 : 


图 3-10 最 右 侧 显 


运行 ， 须 远程 读 取 数 据 ， 例 如 ， 原 来 是 4 个 
-部 分 数据 是 本 地 的 ， 一 部 分 
生 输 出 ， 输 出 到 文件 保存 。 
25th percentlle Median TSth percentlle Max 
03s 03s 03s 03s 
Oms Oms Oms Oms 
8208/7 8208/7 8208/7 8208/7 
1040B/7 10408/7 10408/7 1040617 
Total Falled Killed Succeeded Output Size/ Shuffle Read Size / 
Tasks Tasks Tasks Tasks Records Records 
1 0 0 1 8208/7 104.0B/7 
Executor ID / Gc Output Size / Shutne Read Slze / 
Host LaunchTime Duration Time Records Records Errors 
driver / localhost 2017/05/25 03s 820817 10408B17 
05.33:19 


图 3-10 ResultStage 运 


行 


(1) Task 是 运行 在 Executor 中 的 ， 而 Executor 又 是 位 于 CoarseGrainedExecutorBackend 


中 的 ， 有 上 且 CoarseGrainedExecutorBackend 和 Executor 


是 一 一 对 应 的 ， 计 算 运 行 于 Executor， 


而 Executor 位 于 CoarseGrainedExecutorBackend 中 ，CoarseGrainedExecutorBackend 是 进程 。 





发 任 


务 消 息 也 是 在 CoarseGrainedExecutorBackend。 


(2) 当 CoarseGrainedExecutorBackend 接收 到 TaskSetManager 发 过 来 的 LaunchTask 消息 
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后 会 反 序列 化 TaskDescription， 然 后 使 用 CoarseGrainedExecutorBackend 中 唯一 的 Executor 
来 执行 任务 。 

CoarseGrainedExecutorBackend 收 到 Driver 发 送 的 LaunchTask 任务 消息 , 其 中 LaunchTask 
是 case class， 而 不 是 case object， 是 因为 每 个 消息 是 一 个 消息 实例 ， 每 个 消息 状态 不 一 样 ， 
而 case object 是 唯一 的 ， 因 此 使 用 case class。 


后 
2 


























//Driver 节点 到 executors 节点 
case class LaunchTask (data: SerializableBuffer) extends 
CoarseGrainedClusterMessage 


Executor.scala 的 源码 如 下 。 
Spark 2.1.1 版 本 的 Executorscala 的 launchTask 的 源码 如 下 。 


PP 


Dp 


FAN 


~ 





// 维 护 正在 运行 的 任务 列表 


private val runningTasks = new ConcurrentHashMap[Long, TaskRunner] 


def launchTask( 
context: ExecutorBackend, 
taskId: Long, 
attemptNumber: Int, 
taskName: String, 
serializedTask: ByteBuffer): Unit = { 
Val tr = new TaskRunner (Context，taskId = taskId, attemptNumber = 
attemptNumber, taskName, serializedTask) 
runningTasks.put (taskId, tr) 
threadPool .execute (tr) 


class TaskRunner ( 


execBackend: ExecutorBackend， 

Val taskId: Long, 

val attemptNumber: Int, 

taskName: String, 

serializedTask: ByteBuffer) 
extends Runnable { 


上 上段 代码 中 第 7 一 10 行 调整 launchTask 方法 的 第 二 个 参数 : 传 入 封装 的 
askDescription 任务 描述 信息 。 

上段 代码 中 第 11 行 构建 TaskRunner 实例 传 入 的 也 是 taskDescription 参数 。 

上 段 代码 中 第 19 一 22 行 TaskRunner 的 第 二 个 成 员 变 量 更 新 为 TaskDescription 类 型 。 





def launchTask (Context: ExecutorBackend, taskDescription: TaskDescription) : 
Unit = { 


val tr = new TaskRunner (context, taskDescription) 


class TaskRunner( 


。69 。 








9 private val taskDescription: TaskDescription) 

10. 

在 Executor.scala 中 单 击 launchTask， 运 行 的 任务 使 用 了 ConcurrentHashMap 数据 结构 ， 
运行 launchTask 的 时 候 构 建 了 一 个 TaskRunner，TaskRunner 是 一 个 Runnable， 而 Runnable 
是 Java 中 的 接口 ，Scala 可 以 直接 调用 Java 的 代码 ，run 方法 中 包括 任务 的 反 序列 化 等 内 容 。 
通过 Runnable 封装 任务 ， 然 后 放 入 到 runningTasks 中 , 在 threadPool 中 执行 任务 。threadPool 
是 一 个 newDaemonCachedThreadPool。 任 务 交 给 Executor 的 线程 池 中 的 线程 去 执行 ， 执 行 的 
时 候 下 载 资源 、 数 据 等 内 容 。 

Spark 2.1.1 版 本 的 Executorscala 的 threadPool 的 源码 如 下 。 

1.  // 启 动 worker 线程 池 

让 Private val threadPool = ThreadUtils.newDaemonCachedThreadPool 

("Executor task launch worker") 

Spark 2.2.0 版 本 的 Executor.scala 的 threadPool 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特 
点 : 上 段 代 码 中 第 2 行 Executor 的 线程 池 由 ThreadUtils newDaemonCachedThreadPool 方式 调 
整 为 Executors.newCachedThreadPool(threadFactory) 线 程 池 的 方式 。 

// 启 动 worker 线程 池 
private val threadPool = { 
val threadFactory = new ThreadFactoryBuilder () 


1 
全 
习 
aA: .setDaemon (true) 

5 .setNameFormat ("Executor task launch worker-gsd") 
6 

| 

8 











.SetThreadFactory (new ThreadFactory { 
override def newThread(r: Runnable): Thread = 
// 使 用 UninterruptibleThread 运行 任务 ， 这 样 我 们 就 可 以 允许 运行 代码 不 被 
//Thread.interrupt () 线程 中 断 。 例 如 ，KAFKA-1894、HADOOP-10622， 
// 如 果 某 些 方法 被 中 断 ， 程 序 将 会 一 直 挂 起 
9. new UninterruptibleThread(r, "unused") //thread name will be set 
by ThreadFactoryBuilder 


10. }) 
1 -build() 
2 Executors.newCachedThreadPool (threadFactory) .asInstanceOf 
[ThreadPoolExecutor] 
| 
3.8 通过 WordCount 实战 解析 Spark RDD 内 部 机 制 


本 节 通 过 Spark WordCount 动手 实践 , 编写 单词 计数 代码 ; 在 wordcount.scala 的 基础 上 ， 
从 数据 流动 的 视角 深入 分 析 Spark RDD 的 数据 处 理 过 程 。 





3.8.1 Spark WordCount 动手 实践 


本 节 进 行 Spark WordCount 动手 实践 。 首 先 建立 一 个 文本 文件 helloSpark.txt， 将 文本 文 
件 放 到 文件 目录 data/wordcount/ 中 。helloSpark.txt 的 文本 内 容 如 下 。 
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AODNP 


Hello Spark Hello Scala 
Hello Hadoop 

Hello Flink 

Spark is Awesome 


在 IDEA 中 编写 wordcount.scala 的 代码 如 下 。 


c vawmmewmn 


package com.dt.spark.sparksql 
import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 


import org.apache.spark.rdd.RDD 
/** 


* 使 用 Scala 开发 本 地 测试 的 Spark WordCount 程序 
* Qauthor DT 大 数据 梦 工厂 

* 新 浪 微 博 : http://weibo.com/ilovepains/ 

A 


. Object WordCount { 


def main (args: Array[String]){ 
/冰冰 


* 第 1 步 : 创建 Spark 的 配置 对 象 SparkConf， 设 置 Spark 程序 运行 时 的 配置 信息 ， 
* 例如 ， 通 过 setMaster 设置 程序 要 链接 的 Spark 集群 的 Master 的 URL， 如 果 设 置 
* 为 local， 则 代表 Spark 程序 在 本 地 运行 ， 特 别 适合 于 机 器 配置 非常 差 〈 如 只 有 1GB 
* 的 内 存 ) 的 初学 者 

Ea 


val conf = new SparkConf () // 创 建 SparkConf 对 象 
conf.setAppName ("Wow,My First Spark App!") 


// 设 置 应 用 程序 的 名 称 ， 在 程序 运行 的 监控 界面 可 以 看 到 名 称 
conf.setMaster ("local") // 此 时 程序 在 本 地 运行 ， 不 需要 安装 Spark 集群 


/冰冰 
* 第 2 步 : 创建 SparkContext 对 象 
* SparkContext 是 Spark 程序 所 有 功能 的 唯一 入 口 ， 采 用 Scala、Java、Python、 
* R 等 都 必须 有 一 个 SparkContext 
* SparkContext 核心 作用 : 初始 化 Spark 应 用 程序 ， 运 行 所 需要 的 核心 组 件 ， 包 括 
* DAGScheduler、TaskScheduler、SchedulerBackend， 同 时 还 会 负责 Spark 程 
* 序 往 Master 注册 程序 等 ，SparkContext 是 整个 Spark 应 用 程序 中 至 关 重要 的 一 个 对 象 
5 
val sc = new SparkContext (conf) 
// 创 建 SparkContext 对 象 ， 通 过 传 入 SparkConf 实例 来 定 
// 制 Spark 运行 的 具体 参数 和 配置 信息 


/** 
* 第 3 步 : 根据 具体 的 数据 来 源 (如 HDFS、HBase、Local FS、DB、S3 等 ) 通过 
* SparkContext 来 创建 RDD 
* RDD 的 创建 有 3 种 方式 : 根据 外 部 的 数据 来 源 〈 如 HDFS) 、 根 据 Scala 集合 、 由 其 他 
* 的 RDD 操作 
* 数据 会 被 RDD 划分 成 为 一 系列 的 Partitions， 分 配 到 每 个 Partition 的 数据 属于 
* 一 个 Task 的 处 理 范畴 
流明 


val lines = sc.textFile("data/wordcount/helloSpark.txt", 1) 
// 读 取 本 地 文件 并 设置 为 一 个 Partition 
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站 7 本 
36. * 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 
SE * 第 4.1 步 : 将 每 一 行 的 字符 串 拆 分 成 单个 单词 
38 */ 
39。 val words = lines.flatMap { line => line.split(" ")} 
// 对 每 一 行 的 字符 串 进行 单词 拆 分 ， 并 把 所 有 行 的 拆 
// 分 结果 通过 f1at 合并 成 为 一 个 大 的 单词 集合 
40. /** 
Ch * 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 
42. * 第 4.2 步 : 在 单词 拆 分 的 基础 上 对 每 个 单词 实例 计数 为 1， 也 就 是 word => (word, 1) 
43 . 可 
44. val pairs = words.map { word => (word, 1) } 
45. 
46. /让 
2 * 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 
48. * 第 4.3 步 : 在 每 个 单词 实例 计数 为 1 基础 之 上 统计 每 个 单词 在 文件 中 出 现 的 总 次 数 
上 pl 
50. val wordCountsOdered = pairs.reduceByKey( + ) .map(pair => (pair. 2, 
pair. 1)).sortByKey (false) .map (pair => (pair. 2, pair. 1)) 
// 对 相同 的 Key， 进 行 Value 的 累计 (包括 Local 和 Reducer 级 别 ， 同 时 Reduce) 
Se wordCountsOdered.collect .foreach (wordNumberPair => println 
(wordNumberPair. 1 + " : " + wordNumberPpair. 2)) 
和 sc.stop() 
53. 
与 4 } 
S55 直 


在 IDEA 中 运行 程序 ，wordcount.scala 的 运行 结果 如 下 : 


I 
2. 17/05/21 21:19:07 INFO DAGScheduler: Job 0 finished: collect at 
WordCount.scala:60, took 0.957991 s 
3 Hello :4 
pr 
5. Awesome : 1 
6: Flink = 1 
| 
B20 Seala 1 
9. Hadoop . 
es 
3.8.2 解析 RDD 生成 的 内 部 机 制 


下 面 详 细 解析 一 下 wordcount.scala 的 运行 原理 。 

(1) 从 数据 流动 视角 解密 WordCount， 使 用 Spark 作 单 词 计 数 统计 ， 搞 清楚 数据 到 底 是 
怎么 流动 的 。 

(2) 从 RDD 依赖 关系 的 视角 解密 WordCount。Spark 中 的 一 切 操作 都 是 RDD， 后 面 的 














RDD 对 前 面 的 RDD 有 依赖 关系 。 
(3) DAG 与 血统 Lineage 的 思考 。 
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在 wordcount scala 的 基础 上 ， 我 们 从 数据 流动 的 视角 分 析 数 据 到 底 是 怎么 处 理 的 。 我 们 
绘制 一 张 WordCount 数据 处 理 过 程 图 ， 由 于 图 片 较 大 ， 为 了 方便 阅读 ， 将 原 图 分 成 两 张 图 ， 
如 图 3-11 和 图 3-12 所 示 。 


Stagel 





从 HDFS 上 读 也 分 布 式 文件 ， 开 是 以 


数据 分 片 的 方式 存在 于 了 焦 格 中 





基 十 HadoopRDD 产 生 的 Partition 去 


掉 行 的 KEY 


对 每 个 Partition 中 的 每 一 行进 行 单 
间 切 分 ， 合 并 成 的 单亲 实 





例 的 集合 








Hello Spark Hello Scala 
lHalo Hadoop 

Hello Flink 

Spark is Awesome 








HadoopRDD 
数字 为 仿 移 号 ， 也 就 是 前 量子 
符 囊 长 度 加 1 号 下 一 个 字符 帅 的 

起 移 量 







MapPartitionRDD 


获取 父 RDDINvalue，offset 消 兵 

















(36,"hello Flink") | 





“Hello Flink”" | 








(14,"Spark is Awesome”) 

















“Spark is Awesome” 


MapPartitionRDD 








HDFS 中 在 信 分 布 式 数据 
pa (0,"hello Spark Hello Scala") “Hello Spark Hello Scala” 
如 下 [esrild| latMap map 
| (24,"hello Hadoop") “Hello Hadoop” Array("hello" "Hadoop") | —e— 
Amray("hello", "Flink",) 




















对 短 个 音 记 实例 变 为 展 如 
wordr>fword 人) 





MappartitionRDD 





Armn (CHelo™ 
DeHelo". 


图 3-11 


WordCount 图 1 
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图 3-12 WordCount 图 2 
数据 在 生产 环境 中 默认 在 HDFS 中 进行 分 布 式 存储 ， 如 果 在 分 布 式 集群 中 ， 我 们 的 机 器 
会 分 成 不 同 的 节点 对 数据 进行 处 理 ， 这 里 我 们 在 本 地 测试 ， 重 点 关注 数据 是 怎么 流动 的 。 处 
理 的 第 一 步 是 获取 数据 ， 读 取 数 据 会 生成 HadoopRDD。 
在 WordCount.scala 中 ， 单 击 sc.textFile 进入 Spakr 框架 ，SparkContext.scala 的 textFile 
的 源码 如 下 。 








def textFilel( 

2 path: String, 

* minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { 

光 assertNotStopped () 

I hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], 
classof [Text], 

6. minPartitions) .map (pair => pair. 2.toString) .setName (path) 

J } 


i 
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下 面 看 一 下 hadoopFile 的 源码 ， 通 过 new0 函 数 创建 一 个 HadoopRDD，HadoopRDD 从 
Hdfs 上 读 取 分 布 式 数据 ， 并 且 以 数据 分 片 的 方式 存在 于 集群 中 。 所 谓 的 数据 分 片 ， 就 是 把 我 
们 要 处 理 的 数据 分 成 不 同 的 部 分 ， 例 如 ， 在 集群 中 有 4 个 节点 ， 粗 略 的 划分 可 以 认为 将 数据 
分 成 4 个 部 分 ,4 条 语句 就 分 成 4 个 部 分 。 例如，Hello Spark 在 第 一 台 机 器 上 ，Hello Hadoop 
在 第 二 台 机 器 上 ，Hello Flink 在 第 三 台 机 器 上 ，Spark is Awesome 在 第 四 台 机 器 上 。 
HadoopRDD 帮助 我 们 从 磁盘 上 读 取 数据 ， 计 算 的 时 候 会 分 布 式 地 放 入 内 存 中 ，Spark 运行 在 
Hadoop 上 ， 要 借助 Hadoop 来 读 取 数 据 。 

Spark 的 特点 包括 : 分 布 式 、 基 于 内 存 〈 部 分 基于 磁盘 ) 、 可 迭代; 默认 分 片 策 略 Block 
多 大 ， 分 片 就 多 大 。 但 这 种 说 法 不 完全 准确 ， 因 为 分 片 记录 可 能 跨 两 个 Block， 所 以 一 个 分 
a Block 的 大 小 。 例 如 ，HDFS 的 Block 大 小 是 128MB 的 话 ， 分 片 可 能 多 几 

个 字 节 或 少 几 个 字 节 。 分 片 不 一 定 小 于 128MB， 因 为 如 果 最 后 一 条 记录 跨 两 个 Block， 分 片 
会 把 最 后 和 -个 分 片 中 。 这 里 ，HadoopRDD 用 了 4 个 数据 分 片 ， 设 想 为 128M 
左右 。 

hadoopFile 的 源码 如 下 。 








4 def hadoopFile[K, V]( 

path: String, 

1 inputFormatClass: Class[_ <: InputFormat[K, V]], 

keyClass: Class[K], 

i valueClass: Class[V], 

6 minPartitions: Int = defaultMinPartitions): RDD[ (K, V)] = withScope { 
ef assertNotStopped () 

8 
9 


// 加 载 hdfs-site.xml 配置 文件 
// 详 情 参 阅 Spark-11227 
FileSystem.getLocal (hadoopConfiguration) 


//Hadoop 配置 文件 大 约 有 10 KB， 相 当 大 ， 所 以 进行 广播 

val confBroadcast = broadcast (new SerializableConfiguration 
(hadoopConfiguration)) 

号 val setInputPathsFunc = (jobConf: JobConf) => FileInputFormat. 
setInputPaths (jobConf, path) 


DAWNPO.: 





6. new HadoopRDD( 

We Ehis, 

8 . confBroadcast, 

记忆 Some (setInputPathsFunc), 
205 inputFormatClass, 
让。 keyClass, 
2 ValueClass， 
4 高 minPartitions) .setName (path) 
4 


SparkContext.scala 的 textFile 源码 中 , 调用 hadoopFile 方法 后 进行 了 map 转换 操作 , map 
对 读 取 的 每 一 行 数据 进行 转换 ， 读 入 的 数据 是 一 个 Tuple，Key 值 为 索引 ，Value 值 为 每 行 数 
据 的 内 容 ， 生 成 MapPartitionsRDD。 这 里 ，map(pair => pair. 2.toString) 是 基于 HadoopRDD 
产生 的 Partition 去 掉 的 行 Key 产生 的 Value， 第 二 个 元 素 是 读 取 的 每 行 数据 内 容 。 
MapPartitionsRDD 是 Spark 框架 产生 的 ， 运 行 中 可 能 产生 一 个 RDD， 也 可 能 产生 两 个 RDD。 
例如 ，textFile 中 Spark 框架 就 产生 了 两 个 RDD， 即 HadoopRDD 和 MapPartitionsRDD。 下 面 
是 map 的 源码 。 
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人 def map[U: ClassTag] (f: T => U): RDDI[IUVU] = withScope { 

2 val cleanF = sc.clean (f) 

3 new MapPartitionsRDD[U，T] (this, (context, pid, iter) => iter.map 
(cleanF)) 

4. } 


我 们 看 一 下 WordCount 业务 代码 ， 对 读 取 的 每 行 数据 进行 flatMap 转换 。 这 里 ，flatMap 
对 RDD 中 的 每 一 个 Partition 的 每 一 行 数据 内 容 进 行 单词 切 分 ,如 有 4 个 Partition 分 别 进行 单 
词 切 分 ， 将 “Hello Spark” 切 分 成 单词 “Hello” 和 “Spark”， 对 每 一 个 Partition 中 的 每 一 行 
进行 单词 切 分 并 合并 成 一 个 大 的 单词 实例 的 集合 。flatMap 转换 生成 的 仍然 是 
MapPartitionsRDD: 

RDD.scala 的 flatMap 的 源码 如 下 。 














1 def flatMap[U: ClassTag] (f: T => TraversableOnce[U]): RDD[IU] = withScope { 

发 Val cleanF = sc.clean (f) 

3 new MapPartitionsRDD[U，T] (this, (context, pid, iter) => iter.flatMap 
(cleanF)) 

4. 上 


继续 WordCount 业务 代码 ，words.map { word => (word, 1) } 通 过 map 转换 将 单词 切 分 以 
后 单词 计数 为 1。 例 如 ， 将 单词 “Hello” 和 “Spark” 变 成 (Hello，1) ， (Spark，1) 。 这 
里 生成 了 MapPartitionsRDD 。 

RDD.scala 的 map 的 源码 如 下 。 


是 def map[U: ClassTag] (f: T => U) : RDD[U] = withScope { 

2 Val cleanF = sc.clean(f) 

<| new MapPartitionsRDD[U, T] (this, (context, pid, iter) => iter.map 
(cleanF)) 

4. 


继续 WordCount 业务 代码 ， 计 数 之 后 进行 一 个 关键 的 reduceByKey 操作 ， 对 全 局 的 数据 
进行 计数 统计 。reduceByKey 对 相同 的 Key 进行 Value 的 累计 (包括 Local 和 Reducer 级 别 ， 
同时 Reduce) 。reduceByKey 在 MapPartitionsRDD 之 后 ， 在 Local reduce 级 别 本 地 进行 了 统 
计 ， 这 里 也 是 MapPartitionsRDD。 例 如 ， 在 本 地 将 (Hello，1) ， (Spark，1) ，(Hello, 1)， 
(Scala，1) 汇聚 成 (Hello，2) ， (Spark，1) ，(Scala，1) 。Shuffle 之 前 的 Local Reduce 
操作 主要 负责 本 地 局 部 统计 ， 并 且 把 统计 以 后 的 结果 按照 分 区 策略 放 到 不 同 的 fle。 举 一 个 
简单 的 例子 ， 如 果 下 一 个 阶段 Stage 是 3 个 并 行 度 ， 每 个 Partition 进行 local reduce 以 后 ， 将 
自己 的 数据 分 成 3 种 类 型 ， 最 简单 的 方式 是 根据 HashCode 按 3 取 模 。 

PairRDDFunctions.scala 的 reduceByKey 的 源码 如 下 。 


Eb def reduceByKey (func: (V, V) => V): RDD[(K, V)] = self.withScope { 
党 reduceByKey (defaultPartitioner (self), func) 
3 } 


至 此 ， 前 面 所 有 的 操作 都 是 一 个 Stage， 一 个 Stage 意味 着 什么 : 完全 基于 内 存 操 作 。 父 
Stage: Stage 内 部 的 操作 是 基于 内 存 从 代 的 ， 也 可 以 进行 Cache， 这 样 速度 快 很 多 。 不 同 于 
Hadoop 的 Map Redcue，Hadoop Map Redcue 每 次 都 要 经 过 磁盘 。 

reduceByKey 在 Local reduce 本 地 汇聚 以 后 生成 的 MapPartitionsRDD 仍 属 于 父 Stage; 然 
后 reduceByKey 展开 真正 的 Shuffle 操作 ，Shuffle 是 Spark 甚至 整个 分 布 式 系统 的 性 能 瓶颈 ， 


“75. 
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Shuffle 产生 ShuffleRDD，ShuffledRDD 就 变 成 男 一 个 Stage， 为 什么 是 变 成 另外 一 个 Stage? 
为 要 网 络 传 输 ， 网 络 传输 不 能 在 内 存 中 进行 迭代 。 
从 WordCount 业务 代码 pairs.reduceByKey( + ) 中 看 一 下 PairRDDFunctions.scala 的 
reduceByKey 的 源码 。 
3 def reduceByKey (partitioner: Partitioner，func: (V，V) => V) : RDD[(K, 
V)] = self.withScope { 


combineByKeyWithClassTag[V] ((v: V) => v, func, func, partitioner) 
} 


WD 


reduceByKey 内 部 调用 了 combineByKeyWithClassTag 方法 。 下 面 看 一 下 PairRDDFunctions. 
scala 的 combineByKeyWithClassTag 的 源码 。 


下 def combineByKeyWithClassTag[C] ( 

六 createCombiner: V => C, 

二 mergeValue: (C, V) => CC, 

4. mergeCombiners: (C, C) => C， 

5 partitioner: Partitioner, 

6 mapSideCombine: Boolean = true, 
7 





serializer: Serializer = null) (implicit ct: ClassTag[C]): RDDI(K, 
C)] = self.withScope { 
Sis require (mergeCombiners != null, "mergeCombiners must be defined") 
//required as of Spark 0.9.0 
9 . if (keyClass.isArray) { 
OE if (mapSideCombine) { 
TP throw new SparkException ("Cannot use map-side combining with array 
keys.") 
2 ; 
可 if (partitioner.isInstanceOf[HashPartitioner]) { 
4 throw new SparkException ("HashPartitioner cannot partition array 
keys.") 
= 局 } 
6- } 
TE val aggregator = new Aggregator[K, V, CcC]( 
8. self.context.clean (createCombiner), 
a self.context.clean (mergeValue), 
20E self.context.clean (mergeCombiners)) 
2 if (self.partitioner == Some (partitioner)) { 
世人 self.mapPartitions (iter => { 
3 Val context = TaskContext.get() 
28 new InterruptibleIterator (context, aggregator.combineValuesByKey 
(iter, context)) 
pe }, preservesPartitioning = true) 
26°. } else { 
2 new ShuffledRDD[K, V, C] (self, partitioner) 
ZB .SetSerializer (serializer) 
9 .SetAggregator (aggregator) 
S30 .SetMapSideCombine (mapSideCombine) 
SI } 
32 


在 combineByKeyWithClassTag 方法 中 就 用 new0 函 数 创建 了 ShuffledRDD。 

前 面 假设 有 4 台 机 器 并 行 计算 ， 每 台 机 器 在 自己 的 内 存 中 进行 迭代 计算 ， 现 在 产生 
Shuffle， 数 据 就 要 进行 分 类 ，MapPartitionsRDD 数据 根据 Hash 已 经 分 好 类 ， 我 们 就 抓 取 
MapPartitionsRDD 中 的 数据 。 我 们 从 第 一 台 机 器 中 获取 的 内 容 为 (Hello，2) ， 从 第 二 台 机 
器 中 获取 的 内 容 为 (Hello，1) ， 从 第 三 台 机 器 中 获取 的 内 容 为 (Hello，1) ， 把 所 有 的 Hello 
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都 抓 过 来 。 同 样 ， 我 们 把 其 他 的 数据 (Hadoop，1) ， (Flink，1) …… 都 抓 过 来 。 

这 就 是 Shuffle 的 过 程 ， 根 据 数据 的 分 类 拿 到 自己 需要 的 数据 。 注 意 ，MapPartitionsRDD 
属于 第 一 个 Stage， 是 父 Stage， 内 部 基于 内 存 进行 迭代 ， 不 需要 操作 都 要 读 写 磁 盘 ， 所 以 速 
度 非常 快 ; 从 计算 算 子 的 角度 讲 , reduceByKey 发 生 在 哪里 ? reduceByKey 发 生 的 计算 过 程 包 
括 两 个 RDD: 一 个 是 MapPartitionsRDD; 一 个 是 ShuffledRDD。ShuffledRDD 要 产生 网 络 通 信 。 

reduceByKey 之 后 ， 我 们 将 结果 收集 起 来 ， 进 行 全 局 级 别 的 reduce， 产 生 reduceByKey 
的 最 后 结果 ， 如 将 (Hello，2) ， (Helo，1) ， (Hello，1) 在 内 部 变 成 (Hello，4) ， 其 
他 数据 也 类 似 统计 。 这 里 reduceByKey 之 后 ， 如 果 通 过 Collect 将 数据 收集 起 来 ， 就 会 产生 
MapPartitionsRDD。 从 Collect 的 角度 讲 ，MapPartitionsRDD 的 作用 是 将 结果 收集 起 来 发 送 给 
Driver; 从 saveAsTextFile 输出 到 Hdfs 的 角度 讲 ， 例 如 输出 (Hello，4) ， 其 中 Hello 是 key， 
4 是 Value 吗 ? 不 是 ! 这 里 (Hello，4) 就 是 value， 这 就 需要 设计 一 个 key 出 来 。 

下 面 是 RDD.scala 的 saveAsTextFile 方法 。 





了 def saveAsTextFile(path: String) : Unit = withScope { 
2 //https://issues.apache.org/jira/browse/SPARK-2075 
3 //NullWritable 在 Hadoop 1.+ 版 本 中 是 Comparable， 所 以 编译 器 无 法 发 现 隐 式 排 


// 序 ， 将 使 用 默认 的 “ 空 ”。 然 而 ， 在 Hadoop 2 .+ 中 是 Comparable [NullWritable]， 
// 编 译 器 将 调用 隐 式 的 “排序 ”方法 来 创建 一 个 排序 的 NullWritable。 这 就 是 为 什么 对 
// 于 Hadoop 1.+ 版 本 和 Hadoop 2.+ 版 本 的 saveRsTextFile， 编 译 器 会 生成 不 同 的 匿 
// 名 类 。 因 此 ， 这 里 提供 了 一 个 显 式 排序 的 “nu11” 来 确保 编译 器 为 saveAsTextFile 生 


// 成 相同 的 字 节 码 
4 
5 
Gs val nullWritableClassTag = implicitly[ClassTag[NullWritable]] 
7 val textClassTag = implicitly[ClassTag[Text]] 
8 val r = this.mapPartitions { iter => 
9 Val text = new Text() 
10. iter.map { x => 
br text.set (x.toSstring) 
kr (NullWritable.get(), text) 
3 } 
14. } 
了 办 RDD. rddToPairRDDFunctions (r) (nullWritableClassTag, textClassTag, null) 
oe .SaveAsHadoopFile[TextOutputFormat [NullWritable, Text]] (path) 
7 


RDD.scala 的 saveAsTextFile 方法 中 的 iter map {x=>text.set(x.toString) (NullWritable.get(), 
text)}， 这 里 ，key 转换 成 Null，value 就 是 内 容 本 身 (Hello，4) 。saveAsHadoopFile 中 的 
TextOutputFormat 要 求 输出 的 是 key-value 的 格式 ， 而 我 们 处 理 的 是 内 容 。 回 顾 一 下 ， 之 前 我 
们 在 textFile 读 入 数据 的 时 候 ， 读 入 split 分 片 将 key 去 掉 了 , 计算 的 是 value。 因此， 输出 时 ， 
须 将 丢失 的 key 重新 弄 进来 ， 这 里 key 对 我 们 没有 意义 ， 但 key 对 Spark 框架 有 意义 ， 只 有 
value 对 我 们 有 意义 。 第 一 次 计算 的 时 候 我 们 把 key 丢弃 了 , 所 以 最 后 往 HDFS 写 结果 的 时 候 
需要 生成 key， 这 符合 对 称 法 则 和 能 量 守 恒 形 式 。 

总 结 : 

第 一 个 Stage 有 哪些 RDD? HadoopRDD 、MapPartitionsRDD 、MapPartitionsRDD 、 
MapPartitionsRDD、 MapPartitionsRDD. 
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第 二 个 Stage 有 哪些 RDD? ShuffledRDD、MapPartitionsRDD。 
3.9 基于 DataSet 的 代码 到 底 是 如 何 一 步 步 转化 成 为 RDD 的 


基于 DataSet 的 代码 转换 为 RDD 之 前 需要 一 个 Action 的 操作 , 基于 Spark 中 的 新 解析 引 
擎 Catalyst 进行 优化 ，Spark 中 的 Catalyst 不 仅 限 于 SQL 的 优化 ，Spark 的 五 大 子 框架 (Spark 
Cores、Spark SQL、Spark Streaming、Spark GraphX、Spark Mlib) 将 来 都 会 基于 Catalyst 基 
础 之 上 。 

Dataset.scala 的 collect 方法 的 源码 如 下 。 

Spark 2.1.1 版 本 的 Dataset.scala 的 源码 如 下 。 


ti def collect(): Array[T] = collect (needCallback = true) 


Spark 2.2.0 版 本 Dataset.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 将 Dataset 的 
action 包 庄 起 来 ， 这 样 可 跟踪 QueryExecution 和 时 间 成 本 ， 然 后 汇报 给 用 户 注册 的 回调 
呈 def collect(): Array[T] = withAction("collect", queryExecution) 
(collectFromPlan) 





进入 collect(needCallback:true) 的 方法 如 下 。 
Spark 2.1.1 版 本 的 Dataset.scala 的 源码 如 下 。 


3 private def collect (needCallback: Boolean): Array[T] = { 
人 加 def execute(): Array[T] = withNewExecutionId { 

3 queryExecution.executedPlan.executeCollect () .map (boundEnc .fromRow) 
4. } 

5 

3 if (needCallback) { 

yk withCallback ("collect", toDF())( => execute()) 

十 } else { 

上 访 execute () 

10. 

th 让 


Spark 2.2.0 版 本 的 Dataset.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 

口 调用 关键 的 代码 SQLExecution.withNewExecutionId(sparkSession,qe){action(qe. 
executedPlan)} 得 到 计算 结果 。 

口 action(qe.executedPlan) 是 collect 方法 中 传 入 的 函数 collectFromPlan ， 在 函数 
collectFromPlan 中 传 入 参数 qe.executedPlan 。 


户 


private def withAction[U] (name: String, qe: QueryExecution) (action: 
SparkPlan => U) = { 
try { 
qe.executedPlan.foreach { Plan => 
plan.resetMetrics() 
| 
val start = System.nanoTime() 
Val result = SQLExecution.withNewExecutionId(sparkSession, ge) { 
action (qe .executedPlan) 


OAAMAWN 
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9 

10 . Val end = System.nanoTime () 

de sparkSession.listenerManager.onSuccess (name, qe, end - start) 
2 result 

EN } catch { 

14. case e: Exception => 

a sparkSession.listenerManager.onFailure (name, qe, e) 

16. throw e 

于 7 } 

18. } 

Spark 2.2.0 版 本 的 Dataset.scala 的 源码 从 spark plan 中 获取 所 有 的 数据 。 

是 到 private def collectFromPlan(plan: SparkPlan) : Array[T] = { 
plan.executeCollect () .map (boundEnc .fromRow) 

3 } 


collect 方法 中 关键 的 一 行 代码 是 queryExecution.executedPlan.executeCollect().map 
(boundEnc.fromRow)， 我 们 看 一 下 executedPlan。executedPlan 不 用 来 初始 化 任何 SparkPlan， 
仅 用 于 执行 。 

QueryExecution.scala 的 源码 如 下 。 

1. class QueryExecution (val sparkSession: SparkSession, val logical: 


LogicalPlan) { 


//executePlan 不 应 该 被 用 来 初始 化 任何 Spark Plan，executePlan 只 用 于 执行 
lazy val executedPlan: SparkPlan = prepareForExecution (sparkPlan) 


lazy val toRdd: RDD[InternalRow] = executedPlan.execute() 


OANAWND 


queryExecution.executedPlan.executeCollect0 代 码 中 的 executeCollect 方法 运行 此 查询 , 将 
结果 作为 数组 返回 。executeCollect 方法 调用 了 byteArrayRdd.collect() 方 法 。 
SparkPlan .scala 的 executeCollect 的 源码 如 下 。 


:i def executeCollect(): Array[InternalRow] = { 
区 val byteArrayRdd = getByteArrayRdd () 

三 

测 二 val results = ArrayBuffer[InternalRow] () 
byteRArrayRdd.collect() .foreach { bytes => 

Gx decodeUnsafeRows (bytes) .foreach (results.+=) 
3 } 

3 results.toArray 

9 } 


byteArrayRdd.collect() 方 法 调用 RDD.scala 的 collect 方法 。 collect 方法 最 终 通过 sc.runJob 
提交 Spark 集群 运行 。 
RDD.scala 的 collect 方法 的 源码 如 下 。 


def collect(): Array[T] = withScope { 
val results = sc.runJob (this， (iter: Iterator[T]) => iter.toArray) 
Array.concat (results: _*) 


上 


ODP 





= 








到 QueryExecution.scala 中 ，executedPlan.execute() 是 关键 性 的 代码 。 
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人 lazy val toRdd: RDD[InternalRow] = executedPlan.execute() 


进入 SparkPlan.scala 的 execute 返回 的 查询 结果 类 型 为 RDD[IntemalRow]。 调 用 doExecute 
执行 , SparkPlan 应 重 写 doExecute 进行 具体 实现 。 在 execute 方法 中 就 生成 了 RDD[IntemalRow]。 
execute 方法 的 源码 如 下 。 





:Es final def execute(): RDD[InternalRow] = executeQuery { 
全 doExecute() 
二 全 } 


SparkPlan.scala 的 doExecute() 抽 象 方法 没有 具体 实现 , 通过 SparkPlan 重 写 具体 实现 。 产 
生 的 查询 结果 作为 RDD[IntermalRow]。 

用 protected def doExecute(): RDD[InternalRow] 

IntemalRow 是 通过 语法 树 生 成 的 一 些 数据 结构 。 其 子 类 包括 BaseGenericIntemalRow、 
JoinedRow、Row、UnsafeRow。 

InternalRow.scala 的 源码 如 下 。 





1. abstract class InternalRow extends SpecializedGetters with Serializable { 


2 

< 他 def setBoolean(i: Int, value: Boolean): Unit = update(i, value) 
4. def setByte(i: Int, value: Byte): Unit = update(i, value) 

L 语 def setShort(i: Int, value: Short): Unit = update(i, value) 

1 def setInt(i: Int, value: Int): Unit = update(i, value) 

i def setLong(i: Int, value: Long): Unit = update(i, value) 

本 def setFloat (i: Int, value: Float): Unit = update(i, value) 

9. def setDouble(i: Int, value: Double): Unit = update(i, value) 
DOG 


DataSet 的 代码 转化 成 为 RDD 的 内 部 流程 如 下 。 

Parse SQL(DataSet)— Analyze Logical Plan 一 Optimize Logical Plan 一 Generate Physical 
Plan 一 Prepareed Spark Plan 一 Execute SQL 一 Generate RDD 

基于 DataSet 的 代码 一 步 步 转化 成 为 RDD: 最 终 调用 execute0 生 成 RDD。 
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本 章 将 对 Spark Driver 启动 内 幕 进行 剖析。4.1 节 对 Spark Driver Program 进行 解析 ， 深 
度 剖 析 SparkContext; 4.2 节 解 析 DAGScheduler， 讲 解 DAGScheduler 划分 Stage 及 Stage 内 
部 Task 获取 最 佳 位 置 的 算法 ;4.3 节 对 底层 调度 器 TaskScheduler 进行 解析 ; 4.4 节 解 析 
SchedulerBackend; 4.5 节 整 体 讲解 Spark 系统 运行 内 幕 机 制 的 循环 流程 。 


4.1 Spark Driver Program 剖析 


SparkContext 是 通 往 Spark 集群 的 唯一 入 口 ， 是 整个 Application 运行 调度 的 核心 。 本 节 
将 深度 剖析 SparkContext。 


4.1.1 Spark Driver Program 


Spark Driver Program (以 下 简称 Driver) 是 运行 Application 的 main 函数 并 且 新 建 
SparkContext 实例 的 程序 。 其 实 ， 初 始 化 SparkContext 是 为 了 准备 Spark 应 用 程序 的 运行 环 
境 ， 在 Spark 中 ， 由 SparkContext 负责 与 集群 进行 通信 、 资 源 的 申请 、 任 务 的 分 配 和 监控 等 。 
当 Worker 节点 中 的 Executor 运行 完毕 Task 后 ，Driver 同时 负责 将 SparkContext 关闭 。 通 常 
也 可 以 使 用 SparkContext 来 代表 驱动 程序 (Driver)。 

Driver (SparkContext) 整体 架构 图 如 图 4-1 所 示 。 







results 


RAM 
Worker 


图 4-1 Driver (SparkContext) 整体 架构 图 


4.1.2 SparkContext 深度 剖析 


SparkContext 是 通 往 Spark 集群 的 唯一 入 口 ， 可 以 用 来 在 Spark 集群 中 创建 RDDs、 累 加 
器 (Accumulators) 和 广播 变量 (Broadcast Variables) 。SparkContext 也 是 整个 Spark 应 用 程 
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序 (Application) 中 至 关 重 要 的 一 个 对 象 ， 可 以 说 是 整个 Application 运行 调度 的 核心 (不 是 
指 资 源 调度 ) 。 

SparkContext 的 核心 作用 是 初始 化 Spark 应 用 程序 运行 所 需要 的 核心 组 件 ， 包 括 高 层 调 
度 器 (DAGScheduler)、 底层 调度 器 (TaskScheduler) 和 调度 器 的 通信 终端 (SchedulerBackend)， 
同时 还 会 负责 Spark 程序 向 Master 注册 程序 等 。 

一 般 而 言 ， 通 常 为 了 测试 或 者 学 习 Spark 开发 一 个 Application， 在 Application 的 main 
方法 中 ， 最 开始 几 行 编写 的 代码 一 般 是 这 样 的 : 首先， 创建 SparkConf 实例 ,设置 SparkConf 
实例 的 属性 ， 以 便 覆 六 Spark 默认 配置 文件 spark-env.sh,spark-default.sh 和 log4j.properties 中 
的 参数 ， 然 后 ，SparkConf 实例 作为 SparkContext 类 的 唯一 构造 参数 来 实例 化 SparkContext 
实例 对 象 。SparkContext 在 实例 化 的 过 程 中 会 初始 化 DAGScheduler、TaskScheduler 和 
SchedulerBackend, 而 当 RDD 的 action 触 发 了 作业 (Job) 后 ,SparkContext 会 调用 DAGScheduler 
将 整个 Job 划分 成 几 个 小 的 阶段 (Stage)，TaskScheduler 会 调度 每 个 Stage 的 任务 (Task) 进 
行 处 理 。 还 有 ,SchedulerBackend 管理 整个 集群 中 为 这 个 当前 的 Application 分 配 的 计算 资源 ， 
即 Executor。 

如 果 用 一 个 车 来 比喻 Spark Application， 那 么 SparkContext 就 是 车 的 引擎 ， 而 SparkConf 
是 关于 引擎 的 配置 参数 。 说 明 : 只 可 以 有 一 个 SparkContext 实例 运行 在 一 个 JVM 内 存 中 , 所 
以 在 创建 新 的 SparkContext 实例 前 ， 必 须 调 用 stop 方法 停止 当前 JVM 唯一 运行 的 
SparkContext 实例 。 

Spark 程序 在 运行 时 分 为 Driver 和 Executor 两 部 分 : Spark 程序 编写 是 基于 SparkContext 
的 ， 有 具体 包含 两 方面 。 

口 Spark 编程 的 核心 基础 RDD 是 由 SparkContext 最 初创 建 的 (第 一 个 RDD 一 定 是 由 

SparkContext 创建 的 ) 。 

口 Spark 程序 的 调度 优化 也 是 基于 SparkContext， 首 先进 行 调度 优化 。 

口 Spark 程序 的 注册 是 通过 SparkContext 实例 化 时 生产 的 对 象 来 完成 的 〈 其 实 是 
SchedulerBackend 来 注册 程序 ) 。 

口 Spark 程序 在 运行 时 要 通过 Cluster Manager 获取 具体 的 计算 资源 ， 计 算 资源 获取 也 
是 通过 SparkContext 产生 的 对 象 来 申请 的 (其 实 是 SchedulerBackend 来 获取 计算 资 
源 的 ) 。 

口 SparkContext 骨 溃 或 者 结束 的 时 候 ， 整 个 Spark 程序 也 结束 。 








4.1.3 SparkContext 源码 解析 


SparkContext 是 Spark 应 用 程序 的 核心 。 我 们 运行 WordCount 程序 ， 通 过 日 志 来 深入 了 
解 SparkContext。 
WordCount.scala 的 代码 如 下 。 


package com.dt.spark.sparksql 


import org.apache.1o0g4j.{Level, Logger} 
import org.apache.spark.rdd.RDD 
import org.apache.spark.{SparkConf, SparkContext} 


OpODpP 
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/** 


* 使 用 Scala 开发 本 地 测试 的 Spark WordCount 程序 
* @author DT 大 数据 梦 工 厂 

* 新 浪 微 博 : http://weibo.com/ilovepains/ 

*/ 


. Object WordCount { 


def main (args: Array[String]){ 
Logger .getLogger ("org") .setLevel (Level .ALL) 
/** 


* 第 1 步 : 创建 Spark 的 配置 对 象 SparkConf, 设置 Spark 程序 的 运行 时 的 配置 信息 ， 
* 例如 ， 通 过 setMaster 设置 程序 要 链接 的 Spark 集群 的 Master 的 URL， 如 果 设置 
* 为 local， 则 代表 Spark 程序 在 本 地 运行 ， 特 别 适合 于 机 器 配置 非常 差 ( 如 只 有 1GB 
* 的 内 存 ) 的 初学 者 

EW 


val conf = new SparkConf () // 创 建 SparkConf 对 象 
conf.setAppName ("Wow, WordCountJobRuntime!") 

// 设 置 应 用 程序 的 名 称 , 在 程序 运行 的 监控 界面 中 可 以 看 到 名 称 
conf.setMaster ("local") // 此 时 ， 程 序 在 本 地 运行 ， 不 需要 安装 Spark 集群 


/冰冰 
* 第 2 步 : 创建 SparkContext 对 象 
* SparkContext 是 Spark 程序 所 有 功能 的 唯一 入 口 ， 采 用 Scala、Java、Python、 
* RR 等 都 必须 有 一 个 SparkContext 
* SparkContext 核心 作用 : 初始 化 Spark 应 用 程序 运行 所 需要 的 核心 组 件 ， 包 括 
* DAGScheduler、 TaskScheduler、 SchedulerBackend 
* 同时 还 会 负责 Spark 程序 往 Master 注册 程序 等 
** SparkContext 是 整个 Spark 应 用 程序 中 至 关 重 要 的 一 个 对 象 
*/ 
val sc = new SparkContext (conf) 
// 创 建 SparkContext 对 象 ， 通 过 传 入 SparkConf 
// 实 例 来 定制 Spark 运行 的 具体 参数 和 配置 信息 
六 六 
* 第 3 步 : 根据 具体 的 数据 来 源 (如 HDFS、HBase、Local FS、DB、S3 等 ) 通过 
* SparkContext 来 创建 RDD 
* RDD 的 创建 有 3 种 方式 : 根据 外 部 的 数据 来 源 ( 如 HDFS) ， 根 据 Scala 集合 ， 由 其 他 
* 的 RDD 操作 
* 数据 会 被 RDD 划分 成 一 系列 的 Partitions， 分 配 到 每 个 Partition 的 数据 属于 一 
* 个 Task 的 处 理 范畴 
wh 
val lines = sc.textFile("data/wordcount/helloSpark.txt") 
// 读 取 本 地 文件 并 设置 为 一 个 Partition 


/** 
* 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 
* 第 4.1 步 : 将 每 一 行 的 字符 串 拆 分 成 单个 单词 


val words = lines.flatMap { line => line.split(" ")} 


// 对 每 一 行 的 字符 串 进行 单词 拆 分 , 并 把 所 有 行 的 拆 分 结果 通过 
//Elat 合并 成 为 一 个 大 的 单词 集合 
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44. 

45. 7 

46. * 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 

* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 

47. * 第 4.2 步 : 在 单词 拆 分 的 基础 上 对 每 个 单词 实例 计数 为 1， 也 就 是 word => (word，1) 

48. */ 

49. val pairs: RDD[ (String, Int)] = words.map { word => (word, 1) } 

5O0> pairs.cache() 

SL /** 

2 * 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 

* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 

553 * 第 4.3 步 : 在 每 个 单词 实例 计数 为 1 的 基础 上 统计 每 个 单词 在 文件 中 出 现 的 总 次 数 

54. od 

5 val wordCountsOdered = pairs.reduceByKey( + ) .saveAsTextFile("data/ 

wordcount/wordCountResult.1o0g") 

S58: 

Se while(true){ 

本 

So } 

60. sc.stop() 

61。 

62E 

S30 

在 IDEA 中 运行 WordCount.scala 代码 ， 日 志 显 示 如 下 。 

1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 

2. 17/06/16 06:00:49 INFO SparkContext: Running Spark version 2.1.0 

es 

4. 17/06/16 06:00:54 TRACE BlockInfoManager: Task -1024 releasing lock for 
broadcast 0 piece0 

5. 17/06/16 06:00:54 DEBUG BlockManager: Putting block broadcast 0 piece0 
without replication took 377 ms 

6. 17/06/16 06:00:54 INFO SparkContext: Created broadcast 0 from textFile 
at WordCountJobRuntime.scala:39 

Ws 

8. 17/06/16 06:00:54 INFO SparkContext: Starting job: saveAsTextFile at 
WordCountJobRuntime.scala:58 

es 

程序 一 开始 ， 日 志 里 显示 的 是 : INFO SparkContext: Running Spark version 2.1.0, 日 志 中 


间 部 分 是 一 些 随 着 SparkContext 创建 而 创建 的 对 象 ， 另 一 条 比较 重要 的 日 志 信息 ， 作 业 启 动 
了 并 正在 运行 : INFO SparkContext Starting job: saveAsTextFile at WordCountJobRuntime.scala:58。 
在 程序 运行 的 过 程 中 会 创建 TaskScheduler、DAGScheduler 和 SchedulerBackend， 它 们 
有 各 自 的 功能 。DAGScheduler 是 面向 Job 的 Stage 的 高 层 调 度 器 : TaskScheduler 是 底层 调度 
器 。SchedulerBackend 是 一 个 接口 ， 根 据 具 体 的 ClusterManager 的 不 同 会 有 不 同 的 实现 。 程 


序 打印 结 


ID 


.84。 


果 后 便 开 始 结束 。 日 志 显示 : INFO SparkContext: Successfully stopped SparkContext。 


17/06/16 06:00:56 INFO BlockManagerMaster: BlockManagerMaster stopped 
17/06/16 06:00:56 INFO OutputCommitCoordinator$OutputCommitCoordinator 
Endpoint: OutputCommitCoordinator stopped! 

17/06/16 06:00:56 INFO SparkContext: Successfully stopped SparkContext 
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5. 17/06/16 06:00:56 INFO ShutdownHookManager: Shutdown hook called 


通过 这 个 例子 可 以 感受 到 Spark 程序 的 运行 到 处 都 可 以 看 到 SparkContext 的 存在 , 我 们 
将 SparkContext 作为 Spark 源码 阅读 的 入 口 ， 来 理解 Spark 的 所 有 内 部 机 制 。 

图 4-2 是 从 一 个 整体 去 看 SparkContext 创建 的 实例 对 象 。 首 先 ，SparkContext 构建 的 顶 
级 三 大 核心 为 DAGScheduler、TaskScheduler、SchedulerBackend， 其 中 ，DAGScheduler 是 面 
向 Job 的 Stage 的 高 层 调度 器 ; TaskScheduler 是 一 个 接口 ， 是 底层 调度 器 ， 根 据 具 体 的 
ClusterManager 的 不 同 会 有 不 同 的 实现 ，Standalone 模式 下 具体 的 实现 是 TaskSchedulerImpl。 
SchedulerBackend 是 一 个 接口 ,根据 具体 的 ClusterManager 的 不 同 会 有 不 同 的 实现 。Standalone 
模式 下 具体 的 实现 是 StandaloneSchedulerBackend。 




















StandaloneSchedulerBack 
| TaskSchedulerimpl 一 ~ TaskSchedulermplstart( ) end.start() 
创建 三 大 核心 实例 

createTeskScheduler | 站 | | 

;Executor 注册 给 Driver 中 的 AppClient 

DAGSchedulet: 面 有 | | |schedulerPoollFIFO,KAR | NN -2 

Job 的 Stage 的 高 层 调 

Spark Ul: 背后 是 Jetty 

， 支持 通过 Web 















注册 给 Master, Master 通 
过 给 Worker 发 送 指令 后 
动 Executor 


RegisterWithMaster 一 > 
tryRegisterAllMasters 
注册 是 通过 Thread 完 成 的 





图 4-2 ”SparkContext 整体 运行 图 


从 整个 程序 运行 的 角度 讲 ，SparkContext 包含 四 大 核心 对 象 ; DAGScheduler、 
TaskScheduler、SchedulerBackend、MapOutputTrackerMaster。StandaloneSchedulerBackend 有 
三 大 核心 功能 : 负责 与 Master 连接 ， 注 册 当 前 程序 RegisterWithMaster; 接收 集群 中 为 当前 
应 用 程序 分 配 的 计算 资源 Executor 的 注册 并 管理 Executors; 负责 发 送 Task 到 具体 的 Executor 
执行 。 

第 一 步 : 程序 一 开始 运行 时 会 实例 化 SparkContext 里 的 对 象 ， 所 有 不 在 方法 里 的 成 员 
都 会 被 实例 化 ! 一 开始 实例 化 时 第 一 个 关键 的 代码 是 createTaskScheduler， 它 位 于 
SparkContext 的 PrimaryConstructor 中 ， 当 它 实例 化 时 会 直接 被 调用 ， 这 个 方法 返回 的 是 
taskScheduler 和 dagScheduler 的 实例 , 然后 基于 这 个 内 容 又 构建 了 DAGScheduler, 最 后 调用 
taskScheduler 的 start0 方 法 。 要 先 创 建 taskScheduler， 然 后 再 创建 dagScheduler， 游 
taskScheduler 是 受 dagScheduler 管理 的 。 

SparkContext.scala 的 源码 如 下 。 


1. // 创 建 和 启动 调度 器 

2 val (sched, ts) = SparkContext.createTaskScheduler(this, master, 
deployMode) 

_schedulerBackend = sched 

_taskSscheduler = ts 


Ee 
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dagSscheduler = new DAGScheduler (this) 
heartbeatReceiver.ask[Boolean] (TaskSchedulerIsSet) 

// 在 DAGScheduler 构造 器 中 设置 taskScheduler 的 引用 以 后 , 启动 TaskScheduler 
_taskScheduler .start () 


wo a 


第 二 步 : 调用 createTaskScheduler ， 这 个 方法 创建 了 TaskSchedulerImpl 和 


StandaloneSchedulerBackend，createTaskScheduler 方法 的 第 一 个 入 参 是 SparkContext， 传 入 的 
this 对 象 是 在 应 用 程序 中 创建 的 ss， 第 二 个 入 参 是 master 的 地 址 。 

















以 下 是 WordCount.scala 创建 SparkConf 和 SparkContext 的 上 下 文 信息 。 


1. val conf = new SparkConf () // 创 建 SparkConf 对 象 
之 conf .setAppName ("Wow, WordCount") 

// 设 置 应 用 程序 的 名 称 ， 在 程序 运行 的 监控 界面 中 可 以 看 到 名 称 
conf.setMaster ("local") 


3 
4 val sc = new SparkContext (conf) 





当 SparkContext 调用 createTaskScheduler 方法 时 ， 根 据 集群 的 条 件 创建 不 同 的 调度 器 ， 


例如 ，createTaskScheduler 第 二 个 入 参 master 如 传 入 local 参数 ，SparkContext 将 创建 
TaskSchedulerImpl 实例 及 LocalSchedulerBackend 实例 ， 在 测试 代码 的 时 候 ， 可 以 尝试 传 入 
local[*] 或 者 是 local[2] 的 参数 ， 然 后 跟踪 代码 ， 看 看 创建 了 什么 样 的 实例 对 象 。 


据 正 


SparkContext 中 的 SparkMasterRegex 对 象 定义 不 同 的 正则 表达 式 ， 从 master 字符 串 中 根 
则 表达 式 适 配 master 信息 。 
SparkContext.scala 的 源码 如 下 。 


4 private object SparkMasterRegex { 

2 // 正 则 表达 式 local[N] 和 local[*] 用 于 master 格式 

< 壤 val LOCAL N REGEX = """local\[([0-9]+I\*) \]""".r 

4. // 正 则 表达 式 local [N，maxRetries] 用 于 失败 任务 的 测试 

5. val LOCAL N FAILURES REGEX = """local\[([0-9]+|\*)\s*,\s*#([0-9]+)\]""".r 

6 // 正 则 表达 式 用 于 模拟 Spark 本 地 集群 [N，cores，memory] 

Val LOCAL CLUSTER REGEX = """local-cluster\[\s*([0-9]+)\s*, \s*#([0-9]+) 
Ns*roN ss/( U0 OT SI 

8. ”// 用 于 连接 到 Spark 部 署 集群 的 正则 表达 式 

9. val SPARK REGEX = """spark://(.*)""".r 

| 


这 是 设计 模式 中 的 策略 模式 , 它 会 根据 实际 需要 创建 出 不 同 的 SchedulerBackend 的 子 类 。 
SparkContext.scala 的 createTaskScheduler 方法 的 源码 如 下 。 


EE 
* 基 于 给 定 的 主 URL 创建 任务 调度 器 ， 返 回 一 个 二 元 调度 程序 的 后 台 和 任务 调度 
*/ 


这 

3 

4 Private def createTaskScheduler!( 

a sc: SparkContext, 

6 master: String, 

deployMode: String): (SchedulerBackend, TaskScheduler) = { 
8 import SparkMasterRegex. 


I // 当 在 本 地 运行 时 ， 不 要 试图 在 失败 时 重新 执行 任务 
i val MAX LOCAL TASK FAILURES = 1 
i 
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证 master match { 

14. case "local™" => 

153 Val scheduler = new TaskSchedulerImpl (sc, MAX LOCAL TASK FAILURES, 
isLocal = true) 

Is Val backend = new LocalSchedulerBackend (sc.getConf, scheduler, 1) 

fe scheduler.initialize (backend) 

I (backend, scheduler) 

9< 

20 . case LOCAL N REGEX (threads) => 

2 def localCpuCount: Int = Runtime.getRuntime.availableProcessors() 

228 //1ocal[*] 估 计 机 器 上 的 核 数 ; local [N] 精确 地 使 用 N 个 线程 

3 val threadCount = if (threads == "*") localCpuCount else 
threads .toInt 

24. if (threadCount <= 0) { 

throw new SparkException (s"Asked to run locally with $threadCount 

threads") 

2 1 

I Val scheduler = new TaskSchedulerImpl (sc, MAX LOCAL TASK FAILURES, 
isLocal = true) 

6 val backend = new LocalSchedulerBackend(sc.getConf, scheduler, 
threadCount) 

295 scheduler.initialize (backend) 

305 (backend, scheduler) 

3 

322 case LOCAL N FAILURES REGEX (threads, maxFailures) => 

3: def localCpuCount: Int = Runtime.getRuntime.availableProcessors() 

34. //local[*，M] 计算 机 核发 生 M 个 故障 

S58 //local[N，M] 意味 着 NN 个 线程 M 个 故障 

36 . val threadCount = if (threads == "*") localCpuCount else threads. 
toInt 

3 val scheduler = new TaskSchedulerImpl (sc, maxFailures.toInt, 
isLocal = true) 

S38Ee val backend = new LocalSchedulerBackend(sc.getConf, scheduler, 
threadCount) 

S309. scheduler.initialize (backend) 

40 . (backend, scheduler) 

41. 

2 Case SPARK REGEX (sparkUTr1) => 

43: val scheduler = new TaskSchedulerImpl (sc) 

44. val masterUrls = sparkUrl.split(",") .map("spark://" + ) 

CE val backend = new StandaloneSchedulerBackend(scheduler, sc， 
masterUrls) 

46. scheduler.initialize (backend) 

7 (backend, scheduler) 

48 . 

49 . case LOCAL CLUSTER REGEX (numSlaves, coresPerSlave, memoryPerSlave) => 

50E // 确 认 请 求 的 内 存 <= memoryPerSlave， 和 否则 Spark 将 会 挂 起 

SE Val memoryPerSlaveInt = memoryPerSlave.toInt 

D2 if (sc.executorMemory > memoryPerSlaveInt) { 

时 throw new SparkException( 

54. "Asked to launch cluster with %d MB RAM / worker but requested 

sd MB/worker" -format ( 

SD memoryPerSlavelInt, sc.executorMemory)) 

S60% Ff 

Se 

人 val scheduler = new TaskSchedulerImp1l (sc) 

全 属 val localCluster = new LocalSparkCluster( 

60 . numSlaves .toInt， coresPerSlave.toInt, memoryPerSlavelInt, sc.conf) 

6 val masterUrls = localCluster.start() 
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三 之 二 val backend = new StandaloneSchedulerBackend(scheduler, sc， 
masterUrls) 

63. scheduler.initialize (backend) 

64. backend.shutdownCallback = (backend: StandaloneSchedulerBackend) => { 

| 二 于 localCluster.stop() 

66. } 

BT (backend, scheduler) 

68 . 

9s case masterUTr1 => 

70 . val cm = getClusterManager (masterUr1) match { 

hE case Some(clusterMgr) => clusterMgr 

了 2 case None => throw new SparkException ("Could not parse Master URL: 
"masteor Ft ™") 

3- 站 

A t¥EYy { 

让 人 全 val scheduler = cm.createTaskScheduler (sc，masterUr1l) 

os Val backend = cm.createSchedulerBackend (sc, masterUr]l, scheduler) 

ee cm.initialize (scheduler, backend) 

引证 (backend, scheduler) 

9 Teate 

80 . case se: SparkException => throw se 

BE case NonFatal (e) => 

2 throw new SparkException ("External scheduler cannot be 

instantiated", e) 

83- 

84. } 

85: } 


在 实际 生产 环境 下 ， 我 们 都 是 用 集群 模式 ， 即 以 spark:// 开 头 ， 此 时 在 程序 运行 时 ， 框 架 
会 创建 一 个 TaskSchedulerImpl 和 StandaloneSchedulerBackend 的 实例 ， 在 这 个 过 程 中 也 会 初 
始 化 taskscheduler ， 把 StandaloneSchedulerBackend 的 实例 对 象 作 为 参数 传 入 。 
StandaloneSchedulerBackend 被 TaskSchedulerImpl 管理 ， 最 后 返回 TaskScheduler 和 
StandaloneSchdeulerBackend。 

SparkContext.scala 的 源码 如 下 。 


;I case SPARK REGEX (sparkUrl) => 


Val scheduler = new TaskSchedulerImpl (sc) 

val masterUrls = sparkUrl.split(",") .map("spark://" + ) 
val backend = new StandaloneSchedulerBackend(scheduler, sc, 
masterUrls) 

scheduler.initialize (backend) 

(backend, scheduler) 


createTaskScheduler 方法 执行 完毕 后 ， 调 用 了 taskscheduler.start(0) 方 法 来 正式 启动 
taskscheduler， 这 里 虽然 调用 了 taskscheduler.start 方法 ， 但 实际 上 是 调用 了 taskSchedulerImpl 


的 start 方法 ， 因 





为 taskSchedulerImpl 是 taskScheduler 的 子 类 。 


Task 默认 失败 重 试 次 数 是 4 次 ， 如 果 任 务 不 容许 失败 ， 就 可 以 调 大 这 个 参数 。 调 大 


spark.task.maxFailures 参数 有 助 于 确保 








的 任务 失败 后 可 以 重 试 多 次 。 


初始 化 TaskSchedulerImpl: 调用 createTaskScheduler 方法 时 会 初始 化 TaskSchedulerImpl， 
然后 把 StandaloneSchedulerBackend 当 作 参数 传 进去 ， 初 始 化 TaskSchedulerImpl 时 首先 是 创 
建 一 个 Pool 来 初 定义 资源 分 布 的 模式 Scheduling Mode， 默 认 是 先进 先 出 (FIFO) 的 模式 。 
Spark 2.1.1 版 本 的 TaskSchedulerImpl.scala 的 initialize 的 源码 如 下 。 


二 def initialize (backend: SchedulerBackend) { 
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this .backend = backend 
// 临 时 设置 rootPool 名 字 为 空 
rootPool = new Pool(""，schedulingMode，0，0) 
schedulableBuilder = { 
schedulingMode match { 
case SchedulingMode.FIFO => 
new FIFOSchedulableBuilder (rootPool) 
case SchedulingMode.FAIR => 
new FairSchedulableBuilder (rootPool, conf) 
case _ => 
throw new IllegalArgumentException(s"Unsupported spark. 
scheduler.mode: $schedulingMode") 
: 
} 
schedulableBuilder.buildPools () 
} 


Spark 2.2.0 版 本 的 TaskSchedulerImpl.scala 的 initialize 的 源码 与 Spark 2.1.1 版 本 相 比 具 
有 如 下 特点 : 上 段 代 码 中 第 4 行 rootPool 变量 的 创建 从 initialize 方法 内 移动 至 initialize 方法 
外 ; rootPool 作为 TaskSchedulerImpl 类 的 成 员 变 量 ， 在 构建 TaskSchedulerImpl 时 初始 化 。 


5 


Val rootPool: Pool = new Pool(""，schedulingMode，0，0) 


可 以 设置 spark.scheduler.mode 参数 来 定义 资源 调度 池 ， 例 如 FAIR、FIFO， 默 认 资 源 调 
度 池 是 先进 先 出 FIFO) 模式 。 
Spark 2.1.1 版 本 的 TaskSchedulerImpl.scala 的 源码 如 下 。 


人 
这 
3> 
4. 
- 
6 


Ys 


Private val schedulingModeConf = conf.get("spark.scheduler .mode", 
"FIFO") 
val schedulingMode: SchedulingMode = try { 
SchedulingMode .withName (schedulingModeConf .toUpperCase) 
peatch 
case e: java.util.NoSuchElementException => 
throw new SparkException(s"Unrecognized spark.scheduler .mode: 
$schedulingModeConf") 
} 


Spark 2.2.0 版 本 的 TaskSchedulerImpl.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 


口 


口 
口 


本 


mn 心 wN 


woo 


上 段 代码 中 第 1 行 Conf 配置 文件 获取 属性 的 代码 进行 了 微调 ， 调 整 为 从 object 


TaskSchedulerImpl 中 获取 。 


上 段 代 码 中 第 3 行 ttUpperCase 更 新 为 toUpperCase(Locale.ROOT)。 


上 段 代 码 中 第 6 行 异常 提示 字符 串 更 新 为 9SCHEDULER_MODE_ PROPERTY。 


private val schedulingModeConf = conf.get(SCHEDULER MODE PROPERTY, 
SchedulingMode .FIFO.toString) 


throw new SparkException (s"Unrecognized $SCHEDULER MODE PROPERTY: 
$schedulingModeConf") 


private[spark] object TaskSchedulerImpl { 
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10. Val SCHEDULER MODE PROPERTY = "Spark-scheduler-mode" 
12. SchedulingMode.scala 

14. object SchedulingMode extends Enumeration { 

16. type SchedulingMode = Value 


Te val FAIR, FIFO, NONE = Value 
8、 小 











本 到 taskScheduler start 方法 ，taskScheduler.start 方法 调用 时 会 再 调用 schedulerbackend 
的 start 方法 。 
TaskSchedulerImpl.scala 的 start 方法 的 源码 如 下 。 











override def start() { 

2 backend.start () 

三 

着 = if (!isLocal && conf.getBoolean("spark.speculation", false)) { 

5 logInfo("Starting speculative execution thread") 

6, speculationScheduler.scheduleAtFixedRate (new Runnable { 

了 override def run(): Unit = Utils.tryOrStopSparkContext (sc) { 

8= checkSpeculatableTasks () 

四 1 

和 De }, SPECULATION INTERVAL MS, SPECULATION INTERVAL MS, TimeUnit. 
MILLISECONDS) 

11. } 

2 


SchedulerBackend 包含 多 个 子 类 ， 分 别 是 LocalSchedulerBackend、CoarseGrainedScheduler- 
Backend 和 StandaloneSchedulerBackend、MesosCoarseGrainedSchedulerBackend、YamScheduler- 
Backend 。 

StandaloneSchedulerBackend 的 start 方法 调用 了 CoarseGraninedSchedulerBackend 的 
start 方法 ， 通 过 StandaloneSchedulerBackend 注册 程序 把 command 提交 给 Master: Command 
("org.apache.spark.executor.CoarseGrainedExecutorBackend"，args，sc.executorEnvs，classPathEntries 
++ testingClassPath, libraryPathEntries, javaOpts) 来 创建 一 个 StandaloneAppClient 的 实例 。 

Spark 2.1.1 版 本 的 StandaloneSchedulerBackend.scala 的 start 方法 的 源码 如 下 。 





i override def start() { 

党 二 Super .start () 

KK 并 launcherBackend.connect () 

4. 

5. //executors 节点 与 我 们 通信 的 端点 

后 val driverUr1 = RpcEndpointAddress( 

i sc.conf.get ("spark.driver.host"), 

8. sc.conf.get ("spark.driver.port") .toInt, 

了 CoarseGrainedSchedulerBackend.ENDPOINT_NAME) .toString 
10. val args = Seql( 

es "--driver-url", driverUrl, 

Er "--executor-id", "{{EXECUTOR ID}}", 

ep hostname", "{{HOSTNAME}}", 

2 cores"”, “1{CORESY}” 

a app-id™", "{{APP ID}}", 

6 "——worker-—url", "“{{WORKER URL}}") 

A val extraJavaOpts = sc.conf.getOption ("spark.executor.extraJavaOptions") 
18. -map (Utils.splitCommandString) .getOrElse (Seq.empty) 


. 
2 
oS 
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19. val classPathEntries = sc.conf.getOption ("spark.executor. extraClassPath") 

20 . -map( -split(java.io.File-pathSeparator) .toSeq) .getOrElse (Nil) 

21. val libraryPathEntries = sc.conf.getOption ("spark.executor. 
extraLibraryPath") 

ER -map( .split (java.io.File.pathSeparator) .toSeq) .getOrElse (Nil) 

和 23 


4 // 测 试 时 ， 将 父 类 路 径 公开 给 子 对 象 ， 由 compute-classpath. {cmd, sh} 计 算 路 径 。 当 
//“*-provided” 配 置 启用 ， 子 进程 可 使 用 所 有 需要 的 jar 包 


2 val testingClassPath = 

6 if (sys.props.contains("spark.testing")) { 

2 sys.props ("java.class.path") .split (java.io.File.pathSeparator) .toSeq 

2 } else { 

3 Nil 

SO ; 

3 

325 // 使 用 注册 调度 必要 的 一 些 配置 启动 executors 

三 所 val sparkJavaOpts = Utils.sparkJavaOpts (conf, SparkConf. 
isExecutorStartupConf) 

34. val javaOpts = sparkJavaOpts ++ extraJavaOpts 

3 val command = Command("org.apache.spark.executor.CoarseGrained- 
ExecutorBackend", 

36. args, sc.executorEnvs, classPathEntries ++ testingClassPath, 

libraryPathEntries, javaOpts) 

7 val appUIAddress = sc.ui.map( .appUIAddress) .getOrElse("") 

38, val coresPerExecutor = conf.getOption("spark.executor.cores") .map 
EornE) 


39. // 如 果 使 用 动态 分 配 ， 现 在 将 我 们 的 初始 执行 器 限制 设置 为 0， 
//ExecutorAllocationManager 将 实际 的 初始 限制 发 送 给 Master 节点 


40. val initialExecutorLimit = 

A if (Utils.isDynamicAllocationEnabled(conf)) { 

2 Some (0) 

3 } else { 

44. None 

45. } 

46 . val apPDesc = new ApplicationDescription(sc.appName, maxCores, 


sc.executorMemory, command, appUIAddress, sc.eventLogDir, sc.eventLogCodec, 
CoresPerExecutor, initialExecutorLimit) 


47. client =new StandaloneAppClient (sc.env.rpcEnv, masters, appDesc, this, 
conf) 

48. client.start () 

49. launcherBackend.setState (SparkAppHandle.State .SUBMITTED) 

50. waitForRegistration() 

Ss launcherBackend.setState (SparkAppHandle. State .RUNNING) 

| 


Spark 2.2.0 版 本 的 StandaloneSchedulerBackend.scala 的 start 方法 的 源码 与 Spark 2.1.1 版 
本 相 比 具有 如 下 特点 。 
口 上 段 代码 中 第 3 行 增加 了 对 SparkContext 部 署 方式 的 判断 。 
口 上 段 代 码 中 第 37 行 appUIAddress 变量 名 称 调 整 为 webUrl。 
口 上 段 代码 中 第 46 行 构建 应 用 程序 的 描述 信息 ApplicationDescription 第 5 个 参数 
appUIAddress 更 新 为 webUrl 参数 。 








Ke 


i 

va //SPARK-21159: 只 有 在 client 模式 下 scheduler backend 去 连接 launcher。 在 
//cluster 集群 下 ， 提 交 应 用 程序 应 提交 给 Master 

:全 if (sc.deployMode == "client") { 
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网 二 launcherBackend.connect () 


a val webUrl = sc.ui.map( .webUrl) .getOrElse("") 


| 


9. val appDesc= ApplicationDescription (sc.appName, maxCores, sc.executorMemory, 
command, webUrl, sc.eventLogDir, sc.eventLogCodec, coresPerExecutor, 


initialExecutorLimit) 


Master 发 指令 给 Worker 去 启动 Executor 所 有 的 进 





FE 程 时 加 载 的 Main 方法 所 在 的 入 口 类 


就 是 command 中 的 CoarseGrainedExecutorBackend, 在 CoarseGrainedExecutorBackend 中 启动 
Executor (Executor 是 先 注 册 ， 再 实例 化 ) ，Executor 通过 线程 池 并 发 执行 Task， 然 后 再 调 


用 它 的 mn 方法 。 
CoarseGrainedExecutorBackend.scala 的 源码 如 下 。 


def main(args: Array[String]) { 

var driverUrl: String = null 

AE Var executorId: String = null 

4. Var hostname: String = null 

和 3 Var cores: Int = 0 

6 var appId: String = null 

Ye Var workerUrl: Option[String] = None 

:二 val userClassPath = new mutable.ListBuffer[URL] () 
SE 

10. Var argv = args.toList 

ds while (!argv.isEmpty) { 

和 2 argV match { 

Fe case ("--driver-url") :: value :: tail => 
14. driverUrl = value 

15e argv = tail 

16. case ("--executor-id") :: value :: tail => 
二 executorId = value 

18 . argv = tail 

9s case ("--hostname") :: value :: tail => 
20e hostname = value 

2 argv = tail 

过 过 case ("--cores") :: value :: tail => 

2 cores = value.toInt 

24. argv = tail 

4 全 case ("--app-id") :: value :: tail => 

26. appId = value 

CE argv = tail 

28. case ("--worker-url") :: value :: tail => 
295 //Worker url 用 于 spark standalone 模式 ， 以 加 强 与 Worker 的 分 享 
30. workerUrl = Some (value) 

3 argv = tail 

S32 case ("--user-class-path") :: value :: tail => 
335 userClassPath += new URL (value) 

34. argv = tail 

3 case Nil => 

36s case tail => 

Ss //scalastyle:off println 

S38 System.err.println(s"Unrecognized options: ${tail.mkstring(™" ")}") 
39. //scalastyle:on println 

40. printUsageAndExit () 

es } 

2 } 
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43 . 

44. if (driverUrl == null || executorId == null || hostname == null || cores 
= 

Ns appId == null) { 

46. printUsageAndExit () 

47. } 

48. 

49. run (driverUrl, executorId, hostname, cores, appId, workerUrl, 
userClassPath) 

与 和 System.exit (0) 

Ss } 














CoarseGrainedExecutorBackend 的 main 入 口 方法 中 调用 了 run 方法 。 
Spark 2.1.1 版 本 的 CoarseGrainedExecutorBackend 的 run 入 口 方法 的 源码 如 下 。 





必 private def run( 

2 driverUrl: String, 

3 executorId: String, 

4. hostname: String, 

i cores: Int, 

6 appId: String, 

a workerUrl: Option[String], 

3. userClassPath: Seq[URL]) { 

9 

OE Utils.initDaemon (10g) 

i 

二 2 SparkHadoopUtil.get.runAsSparkUser { () => 

JS //Debug 代码 

a Utils.checkHost (hostname) 

1L5e 

16. //Bootstrap 去 抓 取 driver 节点 Spark 属性 

Te Val executorConf = new SparkConf 

6. Val port = executorConf.getInt ("spark.executor.port", 0) 

EL: Val fetcher = RpcEnv.createl( 

20e "driverPropsFetcher", 

ZL hostname, 

2 port, 

a executorConf, 

24. new SecurityManager (executorConf), 

5 clientMode = true) 

2 val driver = fetcher.setupEndpointRefByURI (driverUr]l) 

2 val cfg = driver.askWithRetry[SparkAppConfig] (RetrieveSparkAppConfig) 

之 8 val props = cfg.sparkProperties ++ Seq[(String，String)] (("spark. 
app.id", appId)) 

29. fetcher.shutdown () 

30. 

si // 从 driver 节点 获取 属性 信息 ， 创 建 SparkEnv 

3 val driverConf = new SparkConf() 

3 for ((key, value) <- props) { 

34. // 这 是 SSL 在 独立 模式 下 需要 的 

并 if (SparkConf.isExecutorStartupConf (key)) { 

36% driverConf.setIfMissing (key, value) 

3 } else { 

SE driverConf.set (key, value) 

Ss 和 

40 . } 

旭 主 5 if (driverConf.contains("spark.yarn.credentials.file")) { 

42. logInfo("Will periodically update credentials from: " 十 

网 3 志 driverConf.get ("spark.yarn.credentials.file")) 
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44. SparkHadoopUtil.get.startCredentialUpdater (driverConf) 

本 由 

46. 

a Val env = SparkEnv.createExecutorEnv( 

48 . driverConf, executorId, hostname, port, cores, cfg.ioEncryptionKey, 

isLocal = false) 

49. 

SO env. rpcEnv.setupEndpoint ("Executor", new CoarseGrainedExecutorBackend( 

Ss env.rpcEnv, driverUrl, executorId, hostname, cores, userClassPath, 
env)) 

Se workerUrl.foreach { url => 

535 env.rpcEnv.setupEndpoint ("WorkerWatcher", new WorkerWatcher 
(env.rpcEnv, url)) 

54. } 

5 env.rpcEnv.awaitTermination() 

56 . SparkHadoopUtil.get.stopCredentialUpdater () 

STs } 

SBs 小 


Spark 2.2.0 版 本 的 CoarseGrainedExecutorBackend 的 run 入口 方法 的 源码 与 Spark 2.1.1 
版 本 相 比 具有 如 下 特点 : 上 段 代 码 中 第 27 行 Spark 2.2.0 版 本 将 Rpc 消息 终端 引用 
RpcEndpointRef 的 askWithRetry 方法 调整 为 askSync 方法 。CoarseGrainedExecutorBackend 通 
过 消息 循环 体 向 driver 发 送 RetrieveSparkAppConfig 消息 ,RetrieveSparkAppConfig 是 一 个 case 
object。Driver 端的 CoarseGrainedSchedulerBackend 消息 循环 体 收 到 消息 以 后 ， 将 Spark 的 属 
性 信息 sparkProperties 及 加 密 key 等 内 容 封 装 成 SparkAppConfig 消息 , 将 SparkAppConfig 消 
息 再 回复 给 CoarseGrainedExecutorBackend。 


Fl 
2. val cfg = driver.askSync[SparkAppConfig] (RetrieveSparkAppConfig) 








回 到 StandaloneSchedulerBackend.scala 的 start 方法 : 其 中 创建 了 一 个 很 重要 的 对 象 ， 即 
StandaloneAppClient 对 象 ， 然 后 调用 它 的 client.start0 方 法 。 

在 start 方法 中 创建 一 个 ClientEndpoint 对 象 。 

StandaloneAppClient.scala 的 star 方法 的 源码 如 下 。 





:了 def start() { 
2 // 启 动 rpcEndpoint; it will call back into the listener. 
= 区 endpoint .set (rpcEnv.setupEndpoint ("AppClient", new ClientEndpoint 


(rpcEnv) ) ) 
4. } 


ClientEndpoint 是 一 个 RpcEndPoint， 首 先 调用 自己 的 onStart 方法 ， 接 下 来 向 Master 
注册 。 
StandaloneAppClient.scala 的 ClientEndpoint 类 的 源码 如 下 。 


FE private class ClientEndpoint (override val rpcEnv: RpcEnv) extends 
ThreadSafeRpcEndpoint 

这 二 

3 override def onSstart(): Unit = { 

es Ey 

5 registerWithMaster (1) 

6 } catch { 

这 case e: Exception => 
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8 logWarning("Failed to connect to master", e) 
9 markDisconnected () 

OE stop() 

1- } 

2 } 

ke 


调用 registerWithMaster 方法 ， 从 registerWithMaster 调用 tryRegisterAllMasters， 开 一 条 
新 的 线程 来 注册 ， 然 后 发 送 一 条 信息 (RegisterApplication 的 case class) 给 Master。 
StandaloneAppClient scala 的 registerWithMaster 的 源码 如 下 。 


private def registerWithMaster (nthRetry: Int) { 
registerMasterFutures.set (tryRegisterAllMasters () ) 
registrationRetryTimer.set (registrationRetryThread.schedule (new 
Runnable { 

4 override def run(): Unit = { 

5 if (registered.get) { 

6- registerMasterFutures.get.foreach( .cancel (true) ) 

7 

8 

9 


WN 


registerMasterThreadPool .shutdownNow () 
} else if (nthRetry >= REGISTRATION RETRIES) { 
markDead ("All masters are unresponsive! Giving up.") 
02 } else { 


Eh registerMasterFutures.get.foreach( .cancel (true)) 
2 registerWithMaster (nthRetry + 1) 

: 谍 必 } 

14. 1 

5 }, REGISTRATION TIMEOUT SECONDS, TimeUnit .SECONDS)) 
16. } 

Ts 


StandaloneAppClient.scala 的 tryRegisterAllMasters 的 源码 如 下 。 


3 private def tryRegisterAllMasters(): Array[JFuture[ ]] = { 

2 for (masterAddress <- masterRpcAddresses) yield { 

二 registerMasterThreadPool.submit (new Runnable { 

5 override def run(): Unit = try { 

5 if (registered.get) { 

6. return 

ET } 

Bs logInfo("Connecting to master " + masterAddress.toSparkURL + 
mm 站 

| 

9 val masterRef = rpcEnv.setupEndpointRef (masterAddress, 
Master .ENDPOINT NAME) 

10. masterRef .send (RegisterApplication (appDescription, self) 

:he } catch { 

2 case ie: InterruptedException => //Cancelled 

3 case NonFatal (e) => logWarning(s"Failed to connect to master 
$masterAddress", e) 

14. } 

i }) 

16.  ， 

Ts } 

a 


Master 收 到 RegisterApplication 信息 后 便 开始 注册 ， 注 册 后 再 次 调用 schedule() 方 法 。 
Master.scala 的 receive 方法 的 源码 如 下 。 


a override def receive: PartialFunction[Any, Unit] = { 
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3 

4. case RegisterApplication (description, driver) => 

入 // 待 办 事宜 : 防止 某 些 driver 重复 注册 

| :请 if (state == RecoveryState-STRANDBY) { 

yi // 忽 略 ， 不 要 发 送 啊 应 

8- } else { 

9. logInfo ("Registering app " + description.name) 
I val app = createApplication (description, driver) 
dE registerApplication (app) 

了 logInfo("Registered app " + description.name + "with ID "+ app.id) 
了 3 persistenceEngine.addApplication (app) 

14. driver.send (RegisteredApplication(app.id, self)) 
下 5 schedule () 

16 . } 

5 


总 结 : 从 SparkContext 创建 taskSchedulerImpl 初始 化 不 同 的 实例 对 象 来 完成 最 终 向 
Master 注册 的 任务 ， 中 间 包 括 调用 scheduler 的 start 方法 和 创建 StandaloneAppClient 来 间接 
创建 ClientEndPoint 完成 注册 工作 。 

我 们 把 SparkContext 称 为 天 堂 之 门 ，SparkContext 开启 天 堂 之 门 : Spark 程序 是 通过 
SparkContext 发 布 到 Spark 集群 的 ，SparkContext 导演 天 党 世界 : Spark 程序 的 运行 都 是 在 
SparkContext 为 核心 的 调度 器 的 指挥 下 进行 的 ; SparkContext 关闭 天 堂 之 门 : SparkContext 崩 
溃 或 者 结束 的 时 候 整 个 Spark 程序 也 结束 。 


4.2 DAGScheduler 解析 


DAGScheduler 是 面向 Stage 的 高 层 调度 器 。 本 节 讲 解 DAG 的 定义 、DAG 的 实例 化 、 
DAGScheduler 划分 Stage 的 原理 、DAGScheduler 划分 Stage 的 具体 算法 、Stage 内 部 Task 获 
取 最 佳 位 置 的 算法 等 内 容 


4.2.1 DAG 的 定义 


DAGScheduler 是 面向 Stage 的 高 层级 的 调度 器 ，DAGScheduler 把 DAG 拆 分 成 很 多 的 
Tasks， 每 组 的 Tasks 都 是 一 个 Stage， 解 析 时 是 以 Shuffle 为 边界 反 向 解析 构建 Stage， 每 当 
遇 到 Shuffle， 就 会 产生 新 的 Stage， 然 后 以 一 个 个 TaskSet (每 个 Stage 封装 一 个 TaskSet) 的 
形式 提交 给 底层 调度 器 TaskScheduler。 DAGScheduler 需要 记录 哪些 RDD 被 存 入 磁盘 等 物化 
动作 ， 同 时 要 寻求 Task 的 最 优化 调度 ， 如 在 Stage 内 部 数据 的 本 地 性 等 。DAGScheduler 还 
需要 监视 因为 Shuffle 跨 节点 输出 可 能 导致 的 失败 ， 如 果 发 现 这 个 Stage 失败 ， 可 能 就 要 重新 
提交 该 Stage。 

为 了 更 好 地 理解 Spark 高 层 调 度 器 DAGScheduler, 须 综合 理解 RDD、Application、Driver 
Program、Job 内 容 ， 还 需要 了 解 以 下 概念 

(1) Stage: 一 个 Job 需要 拆 分 成 多 组 任务 来 完成 ， 每 组 任务 由 Stage 封装 。 与 一 个 Job 
所 有 涉及 的 PartitionRDD 类 似 ，Stage 之 间 也 有 依赖 关系 。 




















.96。 


第 4 章 Spark Driver 启动 内 幕 剖析 








(2) TaskSet: 一 组 任务 就 是 一 个 TaskSet， 对 应 一 个 Stage。 其 中 ， 一 个 TaskSet 的 所 有 
Task 之 间 没 有 Shuffle 依赖 ， 因 此 互相 之 间 可 以 并 行 运行 。 

(3) Task: 一 个 独立 的 工作 单元 ， 由 Driver Program 发 送 到 Executor 上 去 执行 。 通 常情 
况 下 ， 一 个 Task 处 理 RDD 的 一 个 Partition 的 数据 。 根 据 Task 返回 类 型 的 不 同 ，Task 又 分 
为 ShuffleMapTask 和 ResultTask。 

















4.2.2 ”DAG 的 实例 化 


在 Spark 源码 中 ，DAGScheduler 是 整个 Spark Application 的 入 口 ， 即 在 SparkContext 中 
声明 并 实例 化 。 在 实例 化 DAGScheduler 之 前 ， 已 经 实例 化 了 SchedulerBackend 和 底层 调度 
器 TaskScheduler， 而 SchedulerBackend 和 TaskScheduler 是 通过 SparkContext 的 方法 
createTaskScheduler 实例 化 的 。DAGScheduler 在 提交 TaskSet 给 底层 调度 器 的 时 候 是 面向 
TaskScheduler 接口 的 ， 这 符合 面向 对 象 中 依赖 抽象 ， 而 不 依赖 具体 实现 的 原则 ， 带 来 底层 资 
源 调度 器 的 可 插 拔 性 ， 以 至 于 Spark 可 以 运行 在 众多 的 部 署 模式 上 ， 如 Standalone、Yam、 
Mesos、Local 及 其 他 自 定 义 的 部 署 模式 。 

SparkContext.scala 的 源码 中 相关 的 代码 如 下 。 


43 class SparkContext (config: SparkConf) extends Logging { 





3. Q@volatile private var dagScheduler: DAGScheduler = _ 
a 
5 private[spark] def dagScheduler: DAGScheduler = dagScheduler 
5 private[spark] def dagScheduler =(ds: DAGScheduler): Unit = { 
3 _dagScheduler = ds 
8 

9 


Qs val (sched, ts) = SparkContext.createTaskScheduler (this, master, 
deployMode) 

1 schedulerBackend = sched 

taskScheduler = ts 

3 // 实 例 化 DAGScheduler 时 传 入 当前 的 SparkContext 实例 化 对 象 

4. _dagScheduler = new DAGScheduler (this) 

9 _heartbeatReceiver.ask[Boolean] (TaskSchedulerIsSet) 

6 

yt 


DAGSchedulerscala 的 源码 中 相关 的 代码 如 下 。 


private[spark] 
沪 class DRAGScheduler( 
3 private[scheduler] val sc: SparkContext, 
汪 private[scheduler] val taskScheduler: TaskScheduler, 
与 证 listenerBus: LiveListenerBus, 
6 
| 
8 





mapOutputTracker: MapOutputTrackerMaster, 
blockManagerMaster: BlockManagerMaster, 
env: SparkEnyv, 


A clock: Clock = new SystemClock()) 

10. extends Logging { 

Dy 

bl def this (sc: SparkContext, taskScheduler: TaskScheduler) = { 
3 this( 

14. 3 
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Ds taskScheduler, 

9- sc.listenerBus, 

区 全 sc.env.mapOutputTracker.asInstanceOf [MapOutputTrackerMaster], 
18. sc.env.blockManager .master, 

19. sc.env) 

4 ;| 

2 


22. def this (sc: SparkContext) = this(sc, sc.taskScheduler) 


4.2.3 DAGScheduler 划分 Stage 的 原理 


Spark 将 数据 在 分 布 式 环境 下 分 区 ， 然 后 将 作业 转化 为 DAG， 并 分 阶段 进行 DAG 的 调 
度 和 任务 的 分 布 式 并 行 处 理 。DAG 将 调度 提交 给 DAGScheduler，DAGScheduler 调度 时 会 根 
据 是 否 需 要 经 过 Shuffle 过 程 将 Job 划分 为 多 个 Stage。 
DAG 划分 Stage 及 Stage 并 行 计算 示意 图 如 图 4-3 所 示 。 





图 4-3 DAG 划分 Stage 及 Stage 并 行 计算 示意 图 

其 中 ， 实 线 圆 角 方 框 标识 的 是 RDD， 方 框 中 的 矩形 块 为 RDD 的 分 区 。 

在 图 4-3 中 , RDD A 到 RDD B 之 间 , 以 及 RDDF 到 RDD G 之 间 的 数据 需要 经 过 Shuffle 
过 程 , 因此 RDD A 和 RDDF 分 别 是 Stage 1 跟 Stage 3 和 Stage 2 跟 Stage 3 的 划分 点 .而 RDD 
B 到 RDD G 之 间 ， 以 及 RDD C 到 RDDD 到 RDDF 和 RDDE 到 RDDF 之 间 的 数据 不 需要 
经 过 Shuffle 过 程 ， 因 此 ，RDD G 和 RDD B 的 依赖 是 窄 依赖 ， RDD B 和 RDD G 划分 到 同一 
个 Stage 3, RDDF 和 RDDD 和 RDDE 的 依赖 以 及 RDDD 和 RDDC 的 依赖 是 窄 依赖 , RDD 
C、RDD D、RDD E 和 RDDF 划分 到 同一 个 Stage 2。Stage 1 和 Stage 2 是 相互 独立 的 ， 可 以 
并 发 执行 。 而 由 于 Stage 3 依赖 Stage 1 和 Stage 2 的 计算 结果 ， 所 以 Stage 3 最 后 执行 计算 。 

根据 以 上 RDD 依赖 关系 的 描述 , 图 4-3 中 的 操作 算 子 中 , map 和 union 是 窄 依赖 的 操作 ， 
因为 子 RDD (如 D) 的 分 区 只 依赖 父 RDD (如 C) 的 一 个 分 区 ， 其 他 常见 的 窗 依 赖 的 操作 
如 filter、flatMap 和 join 〈 每 个 分 区 和 已 知 的 分 区 join) 等 。groupByKey 和 join 是 宽 依赖 的 
操作 ， 其 他 常见 的 宽 依 赖 的 操作 如 reduceByKey 等 。 

此 可 见 ， 在 DAGScheduler 的 调度 过 程 中 ，Stage 阶段 的 划分 是 根据 是 否 有 Shuffle 过 
程 ， 也 就 是 当 存在 ShuffleDependency 的 宽 依赖 时 ， 需 要 进行 Shuffle， 这 时 才 会 将 作业 (Job) 
划分 成 多 个 Stage。 
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4.2.4 DAGScheduler 划分 Stage 的 具体 算法 


Spark 作业 调度 的 时 候 ， 在 Job 提交 过 程 中 进行 Stage 划分 以 及 确定 Task 的 最 佳 位 置 。 
Stage 的 划分 是 DAGScheduler 工作 的 核心 ,涉及 作业 在 集群 中 怎么 运行 ，Task 最 佳 位 置 数据 
本 地 性 的 内 容 。Spark 算 子 的 构建 是 链 式 的 ， 涉 及 怎么 进行 计算 ， 首 先是 划分 Stage，Stage 
划分 以 后 才 是 计算 的 本 身 ; 分布 式 大 数据 系统 追求 最 大 化 的 数据 本 地 性 。 数 据 本 地 性 是 指数 
据 进行 计算 的 时 候 ， 数 据 就 在 内 存 中 ， 甚 至 不 用 计算 就 直接 获得 结果 。 

Spark Application 中 可 以 因为 不 同 的 Action 触发 众多 的 Job。 也 就 是 说 , 一 个 Application 
中 可 以 有 很 多 的 Job， 每 个 Job 是 由 一 个 或 者 多 个 Stage 构成 的 ， 后 面 的 Stage 依赖 于 前 面 的 
Stage。 也 就 是 说 ， 只 有 前 面 依赖 的 Stage 计算 完毕 后 ， 后 面 的 Stage 才 会 运行 。 

Stage 划分 的 根据 是 宽 依 赖 。 什 么 时 候 产 生 宽 依赖 呢 ? 例如 ，reducByKey、groupByKey 等 。 

我 们 从 RDD 的 collect0 方 法 开始 ，collect 算 子 是 一 个 Action， 会 触发 Job 的 运行 。 

RDD.scala 的 collect 方法 的 源码 调用 了 runJob 方法 。 


| def collect() : Array[T] = withScope { 

之 val results = sc.runJob (this， (iter: Iterator[T]) => iter.toArray) 
3 Array.concat (results: _*) 

4. 1 


进入 SparkContext.scala 的 runJob 方法 如 下 。 
def runJob[T, U: ClassTag] (rdd: RDD[T], func: Iterator [T] => U) : Array[U] 


二 
runJob(rdd, func, 0 until rdd.partitions.length) 


继续 重 载 runJob 方法 : 





a def runJob[T，U: ClassTag] ( 

这 rdd: RDDI[T], 

< func: Iterator[T] => U, 

4. partitions: Seq[Int]): Array[U] = { 

5 val cleanedFunc = clean (func) 

6 runJob (rdd， (ctx: TaskContext, it: Iterator[T]) => cleanedFunc (it) ， 
Partitions) 

Ds 时 


入 runJob 方法 : 
SparkContext.scala 的 源码 如 下 。 








: def runJob[T, U: ClassTag] ( 

这 rdd: RDDIT], 

3 processPartition: Iterator[T] => U, 

4. resultHandler: (Int, U) => Unit) 

5. { 

5 val processFunc = (context: TaskContext, iter: Iterator[T]) => 
processPartition (iter) 

ya runJob[T, U] (rdd, processFunc, 0 until rdd.partitions.length, 
resultHandler) 

8. } 
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载 ranJob 方法 : 
def runJob[T, U: ClassTag] ( 
rdd: RDDI[T], 
func: (TaskContext, Iterator[T]) => U, 
partitions: Seq[Int]， 
resultHandler: (Int，U) => Unit): Unit = { 
if (stopped.get()) { 
throw new IllegalStateException("SparkContext has been shutdown") 
} 
val callSite = getCallsite 
val cleanedFunc = clean (func) 
logInfo("Starting job: " + callSite.shortForm) 
if (conf.getBoolean("spark.logLineage", false)) { 
logInfo("RDD's recursive dependencies:\n" + rdd.toDebugString) 
} 
dagSscheduler.runJob(rdd, cleanedFunc, partitions, callsite, 
resultHandler, localProperties.get) 





16 . progressBar.foreach( .finishAll ()) 
Fe rdd.doCheckpoint () 
18: . 


进入 DAGScheduler.scala 的 runJob 方法 : 
Spark 2.1.1 版 本 的 DAGScheduler.scala 的 源码 如 下 。 


和 def runJob[T, U]( 

2 rdd: RDDI[T], 

入 func: (TaskContext, Iterator[T]) => U, 

4. partitions: Seql[Int], 

加 callsite: Callsite, 

Ls resultHandler: (Int, U) => Unit, 

ee properties: Properties): Unit = { 

本 val start = System.nanoTime 

加 val waiter = submitJob (rdd, func, partitions, callSite, resultHandler, 
properties) 

江 85 // 注 意 : 不 要 调用 await.ready (future) ， 因 为 它 调用 scala.concurrent.blocking, 
// 如 果 使 用 fork-join pool 连接 池 ， 则 并 发 se&L 执行 失败 。 注 意 ， 由 于 Scala 的 特质 ， 
//awaitPermission 实际 上 没有 在 任何 地 方 使 用 ， 所 以 这 里 安全 地 传递 null。 更 多 的 细 
// 节 ， 可 参阅 SPARK-13747 

hs val awaitPermission = null.asInstanceOf[scala.concurrent.CanAwait] 

> Waiter.completionFuture.ready (Duration.Inf) (awaitPermission) 

:六 waiter.completionFuture.value.get match { 

14. case scala.util.Success( ) => 

5 logInfo("Job %d finished: $s, took $f s".format 

i (waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9)) 

:3 case scala.util.Failure (exception) => 

18. logInfo("Job %d failed: %s, took $f s".format 

Eb 但 (waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9)) 

208 //SPARK-8644: 包括 来 自用 户 DAGScheduler 异常 堆栈 跟踪 

-< val callerStackTrace = Thread.currentThread() .getStackTrace.tail 

2 exception.setStackTrace (exception.getStackTrace ++ 

callerStackTrace) 

Be throw exception 

> } 

oR } 


Spark 2.2.0 版 本 DAGScheduler.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 
口 上 段 代 码 中 第 10 一 12 行 代码 删除 。 
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口 上 段 代 码 中 第 13 行 代码 之 前 新 增 一 行 代码 : 

ThreadUtils.awaitReady(waiter.completionFuture, Duration .Inf) 

Spark 2.2.0 版 本 删 掉 了 nullasImstanceOffscala.concurrentCanAwaitl 的 使 用 ， 调 整 为 使 用 
ThreadUtils.awaitReady (waiter.completionFuture, Duration If) 方 法 。 


2 


DAGScheduler runJob 的 时 候 就 交 给 了 submitJob，waiter 等 待 作业 调度 的 结果 ， 作 业 成 
功 或 者 失败 ， 打 印 相关 的 日 志 信息 。 进 入 DAGScheduler 的 submitJob 方法 如 下 。 


def submitJob[T, U]( 
rdd: RDDI[T], 
func: (TaskContext, Iterator[T]) => U, 
partitions: Seq[Int]， 
callsite: Callsite, 
resultHandler: (Int, U) => Unit, 
properties: Properties): JobWaiter[U] = { 
// 检 查 ， 以 确保 我 们 不 在 不 存在 的 分 区 上 启动 任务 


val maxPartitions = rdd.partitions.length 


partitions.find(p => p >= maxPartitions || p < 0).foreach { p => 
throw new IllegalArgumentException( 
"Attempting to access a non-existent partition: "+p+". "+ 
"Total number of partitions: " + maxPartitions) 


} 


val jobId = nextJobId.getAndIncrement () 
if (partitions.size == 0) { 

// 如 果 作业 正在 运行 0 个 任务 ， 则 立即 返回 

return new JobWaiter[U] (this, jobId, 0, resultHandler) 
} 


assert (partitions.size > 0) 
val func2 = func.asInstanceOf[ (TaskContext, Iterator[ _]) => _] 
val waiter = new JobWaiter (this, jobId, partitions.size, 
resultHandler) 
eventProcessLoop.post (JobSubmitted( 
jobId, rdd, func2, partitions.toArray, callSite, waiter, 
SerializationUtils.clone (properties))) 
waiter 


} 


submitJob 方法 中 ，submitJob 首先 获取 rdd.partitions.length， 校 验 运行 的 时 候 partitions 
是 否 存在 。submitJob 方法 关键 的 代码 是 eventProcessLoop.post(JobSubmitted 的 JobSubmitted， 
JobSubmitted 是 一 个 case class， 而 不 是 一 个 case object， 因 为 application 中 有 很 多 的 Job, 不 
同 的 Job 的 JobSubmitted 实例 不 一 样 , 如 果 使 用 case object, case object 展示 的 内 容 是 一 样 的 ， 
就 像 全 局 唯一 变量 ， 而 现在 我 们 需要 不 同 的 实例 ， 因 此 使 用 case class。JobSubmitted 的 成 员 
finalRDD 是 最 后 一 个 RDD。 
































Action (如 collect) 导致 SparkContextrunJob 的 执行 ， 最 终 导 致 DAGScheduler 中 的 


submitJob 的 执行 ， 其 核心 是 通过 发 送 一 个 case class JobSubmitted 对 象 给 eventProcessLoop。 


= Os 
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其 中 ，JobSubmitted 的 源码 如 下 。 


: private[scheduler] case class JobSubmitted( 
2 yoblas Toty 

3 finalRDD: RDD[ ], 

4 func: (TaskContext, Iterator[ ]) => _， 
is partitions: Array[Int], 

5 callSite: Callsite, 

yt listener: JobListener, 

8 properties: Properties = null) 

9 extends DAGSchedulerEvent 


JobSubmitted 是 private[scheduler] 级 别 的 ， 用 户 不 可 直接 调用 它 。JobSubmitted 封装 了 
jobId, 封装 了 最 后 一 个 finalRDD, 封装 了 具体 对 RDD 操作 的 函数 func, 封装 了 有 哪些 partitions 
要 进行 计算 ， 也 封装 了 作业 监听 器 listener、 状 态 等 内 容 。 

DAGScheduler 的 submitJob 方法 关键 代码 eventProcessLoop.post(JobSubmitted 中 ， 将 
JobSubmitted 放 入 到 eventProcessLoop。post 就 是 Java 中 的 post， 往 一 个 线程 中 发 一 个 消息 。 
eventProcessLoop 的 源码 如 下 。 


1a private[scheduler] val eventProcessLoop = new DAGSchedulerEventProcessLoop 
(this) 


DAGSchedulerEventProcessLoop 继承 自 EventLoop。 


JE private[scheduler] class DRGSchedulerEventProcessLoop (dagScheduler: 
DAGScheduler) 

人 extends EventLoop [DAGSchedulerEvent] ("dag-scheduler-event-loop") with 
Logging { 


EventLoop 中 开启 了 一 个 线程 eventThread， 线 程 设置 成 Daemon 后 台 运 行 的 方式 ，run 
法 里 面 调用 了 onReceive(event) 方 法 。post 方法 就 是 往 eventQueue.put 事件 队列 中 放 入 一 个 
元 素 。EventLoop 的 源码 如 下 。 





天 Private [spark] abstract class EventLoop [E] (name: String) extends Logging { 
2 

3 private val eventQueue: BlockingQueue[E] = new LinkedBlockingDeque[E] () 
4. 

二 private val stopped = new AtomicBoolean (false) 

| 再 

Eh private val eventThread = new Thread(name) { 

8- setDaemon (true) 

9 

10 override def run(): Unit = { 

A try { 

2 while (!stopped.get) { 

人 Val event = eventQueue.take() 

14. Ey 

5 onReceive (event) 

16. } catch { 

站 case NonFatal (e) => 

本 8S try { 

从 onError (e) 

0 J ently 

2 case NonFatal (e) => logError ("Unexpected error in " + name, e) 
2 电 

2 | 
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24. } 

a FF cateh 1 

52 case ie: InterruptedException => // 即 使 eventQueue 不 为 定 ， 退 出 
Ts case NonFatal (e) => logError ("Unexpected error in " + name, e) 
28 . | 

29. } 

30. 

< 上 办 ” 

Ee 

< 攻 注 def start(): Unit = { 

34. if (stopped.get) { 

35。 throw new IllegalStateException (name + " has already been stopped") 
SE } 

3 // 调 用 onstart 启动 事件 线程 ， 确 保 其 发 生 在 onReceive 方法 前 

38 . onStart () 

S39 eventThread. start () 

40. 1} 

i 

42. def post (event: E): Unit = { 

eventQueue.put (event) 

44. |} 


eventProcessLoop 是 DAGSchedulerEventProcessLoo 实例 ，DAGSchedulerEventProcessLoop 
继承 自 EventLoop， 具 体 实现 onReceive 方法 ，onReceive 方法 又 调用 doOnReceive 方法 。 

doOnReceive 收 到 消息 后 开始 处 理 。 

Spark 2.1.1 版 本 的 DAGScheduler.scala 的 源码 如 下 。 


4: private def doOnReceive (event: DAGSchedulerEvent): Unit = event match { 
2 case JobSubmitted(jobId, rdd, func, partitions, callSite, listener, 
properties) => 

dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, 
callSite, listener, properties) 

4. 

Se case MapStageSubmitted(jobId, dependency, callSite, listener, 

properties) => 

63 dagScheduler .handleMapStageSubmitted (jobId, dependency, callsite, 
listener, properties) 

Ts 

8. case StageCancelled(stageId) => 

9. dagScheduler .handleStageCancellation (stageId) 

10< 

了 case JobCcancelled (jobId) => 

六 dagScheduler .handleJobCancellation (jobId) 

13 

14. case JobGroupCancelled(groupId) => 

3 dagScheduler.handleJobGroupCancelled (groupId) 

16. 

了 了 < case AllJobsCancelled => 

De dagScheduler.doCancelAllJobs () 

LT9. 

20. case ExecutorAdded (execId, host) => 

dagScheduler .handleExecutorAdded (execId, host) 

2 

23 Case ExecutorLost (execld, reason) => 

六 val filesLost = reason match { 

25. case SlaveLost( ¢ true) => true 


:WB 








”4 case => false 

2 } 

2 dagScheduler.handleExecutorLost (execId, filesLost) 
人 

30 . case BeginEvent (task，taskInfo) => 

SE dagScheduler.handleBeginEvent (task, taskInfo) 

Ee 

3 case GettingResultEvent (taskInfo) => 

34. dagScheduler.handleGetTaskResult (taskInfo) 

3 

36. case completion: CompletionEvent => 

Si dagScheduler .handleTaskCompletion (completion) 

Ei 

局 case TaskSetFailed (taskSet, reason, exception) => 
40. dagSscheduler.handleTaskSetFailed(taskSet, reason, exception) 
41. 

42. case ResubmitFailedStages => 

六 3 dagScheduler .resubmitFailedStages () 

44. 1} 


Spark 2.2.0 版 本 的 DAGScheduler.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 
口 上 段 代码 中 第 8 一 9 行 StageCancelled 增加 一 个 成 员 变 量 reason， 说 明 Stage 取消 的 


原因 。 

口 上 段 代 码 中 第 11 一 12 行 JobCancelled 增加 一 个 成 员 变 量 reason， 说 明 Job 取消 的 
原因 。 

1 a 

2 case StageCancelled(stagelId, reason) => 

3 dagScheduler .handleStageCancellation (stagelId, reason) 

4. 

:入 case JobCancelled(jobId, reason) => 

6 dagScheduler .handleJobCancellation (jobId, reason) 

7 


总 结 : EventLoop 里 面 开启 一 个 线程 ， 线 程 里 面 不 断 循环 一 个 队列 ，post 的 时 候 就 是 将 
消息 放 到 队列 中 ， 由 于 消息 放 到 队列 中 ， 在 不 断 循环 ， 所 以 可 以 拿 到 这 个 消息 ， 转 过 来 回调 
方法 onReceive(event)， 在 onReceive 处 理 的 时 候 就 调用 了 doOnReceive 方法 。 

关于 线程 的 异步 通信 : 为 什么 要 新 开辟 一 条 线程 ? 例如 ， 在 DAGScheduler 发 送 消息 为 
何不 直接 调用 doOnReceive, 而 需要 一 个 消息 循环 器 。 DAGScheduler 这 里 自己 给 自己 发 消息 ， 
不 管 是 自己 发 消息 ， 还 是 别人 发 消息 ， 都 采用 一 条 线程 去 处 理 ， 两 者 处 理 的 逻辑 是 一 致 的 ， 
扩展 性 就 非常 好 。 使 用 消息 循环 器 ， 就 能 统一 处 理 所 有 的 消息 ， 保 证 处 理 的 业务 逻辑 都 是 一 
致 的 。 

eventProcessLoop 是 DAGSchedulerEventProcessLoop 的 具体 实例 ， 而 DAGScheduler- 
EventProcessLoop 是 EventLoop 的 子 类 ， 具 体 实现 EventLoop 的 onReceive 方法 ，onReceive 
方法 转 过 来 回调 doOnReceive。 

在 doOnReceive 中 通过 模式 匹配 的 方式 把 执行 路 由 到 case JobSubmitted， 调 用 
dagScheduler.handleJobSubmitted 方法 。 











2 private def doOnReceive (event: DAGSchedulerEvent): Unit = event match { 
case JobSubmitted(jobId, rdd, func, partitions, callSite, listener, 
properties) => 

3 dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, 
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callSite, listener, properties) 


DAGScheduler 的 handleJobSubmitted 的 源码 如 下 。 


1 private[scheduler] def handleJobSubmitted(jobId: Int, 

finalRDD: RDD[ 1], 

加 func: (TaskContext, Iterator[ ]) => ， 

4. partitions: Array[Int], 

全 callSite: CallSsite, 

\ listener: JobListener, 

yi properties: Properties) { 

8. var finalStage: ResultStage = null 

9 Try 

MDE // 如 果 作业 运行 在 HadoopRDD 上 ,而 底层 HDFS 的 文件 已 被 删除 ,那么 在 创建 新 的 Stage 
// 时 将 会 跑 出 一 个 异常 

ks finalStage = createResultStage (finalRDD, func, partitions, jobId, 
callsSite) 

2 hecatchn 

3 case e: Exception => 

14. logWarning ("Creating new stage failed due to exception - job: "+ 

jobId, e) 

六 listener.jobFailed (e) 

16. return 

Ls } 

了 85 

19. val job = new ActiveJob(jobId, finalStage, callSite, listener, 

properties) 

p41 属 clearCacheLocs () 

hs logInfo("Got job %s (ss) with %d output partitions".format( 

222 job.jobId, callSite.shortForm, partitions.length)) 

人 3 logInfo("Final stage: " + finalStage + " (" + finalStage.name + ")") 

24. logInfo("Parents of final stage: " + finalStage.parents) 

站 logInfo("Missing Parents: " + getMissingParentStages (finalStage) ) 

26. 

a val jobSubmissionTime = clock.getTimeMillis() 

2 jobIdToRctiveJob (jobId) = job 

9 activeJobs += job 

KJ1 属 finalStage.setActiveJob (job) 

3 val stageIds = jobIdToStageIds (jobId) .toArray 

325 val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id) . 

map(_.latestInfo)) 

< 长 汪 listenerBus.post( 

34. SparkListenerJobStart (job.jobId， jobSubmissionTime, stageInfos, 
properties)) 

35. submitStage (finalStage) 

=， 


Stage 开始 : 每 次 调用 一 个 rnJob 就 产生 一 个 Job; finalStage 是 一 个 ResultStage， 最 后 
一 个 Stage 是 ResultStage， 前 面 的 Stage 是 ShuffleMapStage。 

在 handleJobSubmitted 中 首先 创建 finalStage， 创 建 finalStage 时 会 建立 父 Stage 的 依赖 
链条 。 

通过 createResultStage 创建 finalStage， 传 入 的 参数 包括 最 后 一 个 finalRDD， 操作 的 函数 
func， 分 区 partitions、jobId、callSite 等 内 容 。 创 建 过 程 中 可 能 捕获 异常 。 例 如 ， 在 Hadoop 
上 ， 底 层 的 hdfs 文件 被 删除 了 或 者 被 修改 了 ， 就 出 现 异常 。 

createResultStage 的 源码 如 下 。 
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private def createResultStage ( 
rdd: RDD[ ]， 
func: (TaskContext, Iterator[ ]) => 
partitions: Array[Int], 
oblde Ints 
callSite: CallSite) : ResultStage = { 
val parents = getOrCreateParentStages (rdd, jobId) 
val id = nextStageId.getAndIncrement () 
val stage = new ResultStage (id, rdd, func, partitions, parents, jobId, 
callsite) 
10- stageIdToStage (id) = stage 
3 updateJobIdStageIdMaps (jobId，stage) 
2> stage 
L300 


createResultStage 中 ， 基 于 作业 ID， 作 业 ID (jobId) 是 作为 第 三 个 参数 传 进来 的 ， 创 建 
了 ResultStage。 

createResultStage 的 getOrCreateParentStages 获取 或 创建 一 个 给 定 RDD 的 父 Stages 列表 ， 
新 的 Stages 将 提供 firstJobId 创建 。 

getOrCreateParentStages 的 源码 如 下 。 

:区 private def getOrCreateParentStages (rdd: RDD[_]，firstJobId: Int) : 

List[Stage] = { 
getShuffleDependencies (rdd) .map { shuffleDep => 
getOrCreateShuffleMapStage (shuffleDep, firstJobId) 


} .toList 
} 


oAAODNP 


wm 心 wN 


getOrCreateParentStages 调用 了 getShuffleDependencies (rdd) ，getShuffleDependencies 
返回 给 定 RDD 的 父 节 点 中 直接 的 shuffle 依赖 。 这 个 函数 不 会 返回 更 远 祖先 节点 的 依赖 。 例 
如 ， 如 果 C shuffle 依赖 于 B，B shuffle 依赖 于 A: A <-- B <-- C。 在 RDD C 中 调用 
getShuffleDependencies 函数 ， 将 只 返回 B <-- C 的 依赖 。 此 功能 可 用 作 单 元 测试 。 

下 面 根据 DAG 划分 Stage 示意 图 ， 如 图 4-4 所 示 。 





图 4-4 DAG 划分 Stage 示意 图 


RDD G 在 getOrCreateParentStages 的 getShuffleDependencies 的 时 候 同 时 依赖 于 RDD 
B,RDD F; 看 依赖 关系 ， RDD G 和 RDD B 在 同一 个 Stage 里 ，RDD G 和 RDDE 不 在 同一 个 
Stage 里 ， 根 据 Shuffle 依赖 产生 了 一 个 新 的 Stage。 如 果 不 是 Shuffle 级 别 的 依赖 ， 就 将 其 加 
入 waitingForVisit.push(dependency.rdd)，waitingForVisit 是 一 个 栈 Stack, 把 当前 依赖 的 RDD 
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push 进去 。 然后 进行 while 循环 ， 当 waitingForVisit 不 是 空 的 情况 下 , 将 waitingForVisitpopO 
的 内 容 弹出 来 放 入 到 toVisit， 如 果 已 经 访问 过 的 数据 结构 visited 中 没有 访问 记录 ， 那 么 


toVisit.dependencies 再 





是 罕 依 赖 ， 就 加 入 到 waitingForVisit。 

例如 ,首先 将 RDD G 放 入 到 waitingForVisit, 然后 看 RDD G 的 依赖 关系 , 依赖 RDD B、 
RDD F; RDD G 和 RDDE 构成 的 是 宽 依 赖 ， 所 以 就 加 入 父 Stage 里 ， 是 一 个 新 的 Stage。 但 
如 果 是 窄 依赖 ， 就 把 RDD B 放 入 到 栈 waitingForVisit 中 ，RDD G 和 RDD B 在 同一 个 Stage 
中 。 栈 waitingForVisit 现在 又 有 新 的 元 素 RDD B, 然后 再 次 进行 循环 , 获取 到 宽 依赖 RDD A， 


将 构成 一 个 新 的 Stage 。RDD G 的 getShuffleDependencies 最 终 返 


j 次 循环 遍历 : 如 果 是 Shuffle 依赖 ， 就 加 入 到 parents 数据 结构 ， 如 果 





回 HashSet 


(ShuffleDependency(RDD F),ShuffleDependency(RDD A))。 然 后 getShuffleDependencies(rdd). 
map 人 遍历 调用 getOrCreateShuffleMapStage 直接 创建 父 Stage。 
getShuffleDependencies 的 源码 如 下 。 


oooODP 


private[scheduler] def getShuffleDependencies ( 


rdd: RDD[ ]): HashSet[ShuffleDependency[ , ，, ]]={ 


val parents = new HashSet[ShuffleDependency[ ， ， ]] 
val visited = new HashSet [RDD[_]] 
val waitingForVisit = new Stack[RDD[ ]] 
waitingForVisit.push (rdd) 
while (waitingForVisit.nonEmpty) { 
val toVisit = waitingForVisit.pop() 
if (!visited(toVisit)) { 
visited += toVisit 
toVisit.dependencies.foreach { 
case shuffleDep: ShuffleDependencyl r=> 
parents += shuffleDep 
case dependency => 
waitingForVisit.push (dependency.rdd) 
} 
} 
parents 


} 


getOrCreateParentStages 方法 中 通过 getShuffleDependencies(rdd).map 进行 map 转换 时 用 
了 getOrCreateShuffleMapStage 方法 。 如 果 在 shuffleIdToMapStage 数据 结构 中 shuffleId 已 经 
存在 ， 那 就 获取 一 个 shuffle map stage， 和 否则 ， 如 果 shuffle map stage 不 存在 ， 除 了 即将 进行 
计算 的 更 远 祖先 节点 的 shuffle map stage， 还 将 创建 一 个 自己 的 shuffle map stage。 

getOrCreateShuffleMapStage 的 源码 如 下 。 


Poco~awm 必 wb 


oo 
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private def getOrCreateShuffleMapStage( 
shuffleDep: ShuffleDependency[ , ， ]， 
firstJobId: Int): ShuffleMapStage = { 
shuffleIdToMapStage.get (shuffleDep.shuffleId) match { 
case Some (stage) => 
stage 


case None => 


// 创 建 所 有 即将 计算 的 祖先 shuffle 依赖 的 阶段 


getMissingAncestorShuffleDependencies (shuffleDep.rdd) .foreach 


{ dep => 


// 尽 管 getMissingAncestorShuffleDependencies 只 返回 shuffle 的 依赖 , 其 已 


“ M's 
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// 不 在 shuffleIdToMapStage 中 。 我 们 在 foreach 循环 中 得 到 一 个 特定 的 依赖 是 可 能 
// 的 , 将 被 增加 到 shuffleIdToMapStage 依赖 中 , 其 是 通过 早期 的 依赖 关系 创建 的 阶段 ， 
// 参 考 SPARK-13902 
if (!shuffleIdToMapStage -contains (dep.shuffleId)) { 
createShuffleMapStage (dep, firstJobId) 
} 


} 
// 最 后 ， 为 给 定 的 shuffle 依赖 创建 一 个 阶段 
createShuffleMapStage (shuffleDep, firstJobId) 
} 
} 


getOrCreateShuffleMapStage 方法 中 : 

口 如 果 根 据 shuffleId 模式 匹配 获取 到 Stage, 就 返回 Stage。 首先 从 shuffleIdToMapStage 
中 根据 shuffleId 获取 Stage。shuffleIdToMapStage 是 一 个 HashMap 数据 结构 ,将 Shuffle 
dependency ID 对 应 到 ShuffleMapStage 的 映射 关系 , shuffleIdToMapStage 只 包含 当前 
运行 作业 的 映射 数据 , 当 Shuffle Stage 作业 完成 时 , Shuffle 映射 数据 将 被 删除 , Shuffle 
的 数据 将 记录 在 MapOutputTracker 中 。 

口 如 果 根 据 shuffleId 模式 匹配 没有 获取 到 Stage， 调 用 getMissingAncestorShuffle- 
Dependencies 方法 , createShuffleMapStage 创建 所 有 即将 进行 计算 的 祖先 shuffle 依赖 
的 Stages。 

getMissingAncestorShuffleDependencies 查找 shuffle 依赖 中 还 没有 进行 shuffleToMapStage 

注册 的 祖先 节点 。 

getMissingAncestorShuffleDependencies 的 源码 如 下 。 


oawm 心 wm 


private def getMissingaAncestorShuffleDependencies ( 
rdd: RDD[ ]): Stack[ShuffleDependency[ ，，]] =1{ 
val ancestors = new Stack[ShuffleDependency[ ， ， ]] 
val visited = new HashSet [RDD[ ]] 
// 手 动 维护 堆栈 来 防止 通过 递归 访问 造成 的 堆栈 溢出 异常 
val waitingForVisit = new Stack[RDD[ ]] 
waitingForVisit.push (rdd) 
while (waitingForVisit.nonEmpty) { 
val toVisit = waitingForVisit.pop() 
if (!visited(toVisit)) { 
Visited += toVisit 
getShuffleDependencies (toVisit) .foreach { shuffleDep => 
if (!shuffleIdToMapStage.contains (shuffleDep.shuffleId)) { 
ancestors.push (shuffleDep) 
waitingForVisit.push (shuffleDep.rdd) 
} // 依 赖 关系 及 其 已 经 注册 的 祖先 
J 


} 


ancestors 


} 


createShuffleMapStage 根据 Shuffle 依赖 的 分 区 创建 一 个 ShufleMapStage， 如 果 前 一 个 





Stage 已 4 


E 成 相同 的 Shuffle 数据 ， 那 Shuffle 数据 仍 是 可 用 的 ，createShuffleMapStage 方法 将 


复制 Shuffle 数据 的 位 置信 息 去 获取 数据 ， 无 须 再 重新 生成 一 次 数据 。 


we 
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createShuffleMapStage 的 源码 如 下 。 


a def createShuffleMapStage (shuffleDep: ShuffleDependency[ , , _], jobId: 
Int) : ShuffleMapStage = { 


2 val rdd = shuffleDep.rdd 

人 val numTasks = rdd.partitions.length 

4. val parents = getOrCreateParentStages (rdd, jobId) 

5 val id = nextStageId.getRandIncrement () 

6 val stage = new ShuffleMapStage(id, rdd, numTasks, parents, jobId, 

rdd.creationSite, shuffleDep) 

了 全 stageIdToStage (id) = stage 

8 shuffleIdToMapStage (shuffleDep.shuffleId) = stage 

9. updateJobIdStageIdMaps (jobId, stage) 

[1 启 if (mapOutputTracker.containsShuffle(shuffleDep.shuffleId)) { 

Te // 以 前 运行 的 阶段 为 这 个 shuffle 生成 的 分 区 ， 对 于 每 个 输出 仍然 可 用 ， 将 输出 位 置 的 
// 信 息 复制 到 新 阶段 (所 以 没 必要 重新 计算 数据 》 

2 val serLocs = mapOutputTracker.getSerializedMapOutputStatuses 
(shuffleDep.shufflelId) 

了 33 Val locs = MapOutputTracker.deserializeMapStatuses (serLocs) 

La (0 until locs.length) .foreach { i => 

he 1 (locs(i) ne mul) 

16. //locs(i) will be null if missing 

了 Y 克 stage.addOoutputLoc(i, locs(i) 

8; 1 

9s } 

20. } else { 

2 // 这 里 需要 注册 RDDS 与 缓存 和 map 输出 跟踪 器 ， 不 能 在 RDD 构造 函数 实现 ， 因 为 分 区 
// 是 未 知 的 

全 2 logInfo ("Registering RDD " + rdd.id + " ("+ rdd.getCreationSite + ")") 

也 三 汪 mapOutputTracker.registerShuffle(shuffleDep.shuffleId, 
rdd.partitions .length) 

24. | 

也 Stage 

2 


回 到 handleJobSubmitted， 创 建 finalStage 以 后 将 提交 finalStage。 





private[scheduler] def handleJobSubmitted(jobId: Int, 

ee 

< 后 finalStage = createResultStage (finalRDD， func， partitions, jobId, 
cal1Site) 

a 

中 二 submitStage (finalStage) 

6. } 


submitStage 提交 Stage， 首 先 递归 提交 即将 计算 的 父 Stage。 
submitStage 的 源码 如 下 。 


于 private def submijitStage (stage: Stage) { 

val jobId = activeJobForStage (stage) 

3 if (jobId.isDefined) { 

4 logDebug ("submitSstage(" + stage + ")") 

昌 志 if (!waitingStages (stage) && !runningStages (stage) && !failedStages 


(stage)) { 
5 val missing = getMissingParentStages (stage) .sortBy( .id) 
a logDebug ("missing: " + missing) 
da if (missing.isEmpty) { 
Sa logInfo("Submitting " + stage + " (" + stage.rdd + "), which has 


no missing parents") 


-2 
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40 submitMissingTasks (stage, jobId.get) 
有 } else { 

2 for (parent <- missing) { 

3 submitStage (parent) 

14. 上 

15s waitingStages += stage 

16. } 

17. | 

18. } else { 

19, abortStage (stage, "No active job for stage " + stage.id, None) 
20. | 

21: } 


其 中 调用 了 getMissingParentStages， 源 码 如 下 。 


i private def getMissingParentStages (stage: Stage): List[Stage] = { 

2 val missing = new HashSet[Stage] 

3 val visited = new HashSet [RDD[ ]] 

2 A/ 人工 维护 堆栈 来 防止 通过 递归 访问 造成 的 堆栈 溢出 异常 

5 val waitingForVisit = new Stack[RDD[_]] 

G2 def visit(rdd: RDD[ ]) { 

多 if (!visited(rdd)) { 

8 . visited += rdd 

9 val rddHasUncachedPartitions = getCacheLocs (rdd) .contains (Nil) 

Ds if (rddHasUncachedPartitions) { 

了 和 for (dep <- rdd.dependencies) { 

;| dep match { 

3 case shufDep: ShuffleDependency[ ， ， ] => 

14. val mapStage = getOrCreateShuffleMapStage (shufDep, stage. 
firstJobId) 

Ss if (!mapStage.isAvailable) { 

于 在 missing += mapStage 

Te } 

38<= case narrowDep: NarrowDependency[ ] => 

9s waitingForVisit.push (narrowDep.rdd) 

20: } 

21. } 

22. } 

23< } 

24. } 

2 waitingForVisit.push(stage.rdd) 

过 while (waitingForVisit.nonEmpty) { 

3 Visit (waitingForVisit.pop()) 

28. } 

29. missing.toList 

SDH 


接 下 来 ， 我 们 结合 Spark DAG 划分 Stage 示意 (图 4-5) 进行 详细 阐述 。 
RDD A 到 RDD B, 以 及 RDDF 到 RDD G 之 间 的 数据 需要 经 过 Shuffle 过 程 , 因此 , RDD 
A 和 RDDF 分 别 是 Stage 1 跟 Stage 3、Stage 2 跟 Stage 3 的 划分 点 。 而 RDDB 到 RDDG 没 





有 Shuffle， 央 











此 ，RDD G 和 RDD B 的 依赖 是 窄 依赖 ，RDD B 和 RDD G 划分 到 同一 个 


Stage 3; RDDC 到 RDDD、RDDEF, RDDE 到 RDDE 之 间 的 数据 不 需要 经 过 Shuffle, RDD 
F 和 RDDD 加 RDDE 的 依赖 、RDD D 和 了 RDD C 的 依赖 是 窄 依赖 ， 因 此 ，RDD C、RDD D、 
RDDE 和 RDDE 划 分 到 同一 个 Stage 2。Stage 1 和 Stage 2 是 相互 独立 的 ， 可 以 并 发 执行 。 


而 由 于 Stage 3 


Re 








依赖 Stage 1 和 Stage 2 的 计算 结果 ， 所 以 Stage 3 最 后 执行 计算 。 
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口 createResultStage: 基于 作业 ID (jobId) 创 建 ResultStage。 调用 getOrCreateParentStages 
创建 所 有 父 Stage, 返回 parents: List[Stage] 作 为 父 Stage, 将 parents 传 入 ResultStage， 
实例 化 生成 ResultStage。 

在 DAG 划分 Stage 示意 图 中 ， 对 RDD G 调用 createResultStage， 通 过 getOrCreate- 

ParentStages 获取 所 有 父 List[Stage]: Stage 1、Stage 2， 然 后 创建 自己 的 Stage 3。 

口 getOrCreateParentStages: 获取 或 创建 给 定 RDD 的 父 Stage 列表 。 将 根据 提供 的 

firstJobId 创建 新 的 Stages。 








图 4-5 DAG 划分 Stage 示意 图 


在 DAG 划分 Stage 示意 图 中 ，RDD G 的 getOrCreateParentStages 会 调用 
getShuffleDependencies 获得 RDD G 所 有 直接 宽 依赖 集合 HashSet(ShuffleDependency(RDD P)， 
ShuffleDependency(RDD A))， 这 里 是 RDD F 和 RDD A 的 宽 依 赖 集合 ， 然 后 遍历 集合 ， 对 
(ShuffleDependency(RDD F), ShuffleDependency(RDD A)) 分 别 调用 getOrCreateShuffleMapStage。 

口 对 ShuffleDependency(RDD A) 调 用 getOrCreateShuffleMapStage， getOrCreateShuffle- 
MapStage 中 根据 shuffleDep.shuffleId 模式 匹配 调用 getMissingAncestorShuffle- 
Dependencies， 返回 为 空 ; 对 ShuffleDependency(RDD A) 调 用 createShuffleMapStage， 
RDD A 已 无 父 Stage， 因 此 创建 Stage 1。 

口 对 ShuffleDependency(RDD F) 调 用 getOrCreateShuffleMapStage，getOrCreateShuffle- 
MapStage 中 根据 shuffleDep.shuffleId 模式 匹配 调用 getMissingAncestorShuffle- 
Dependencies， 返 回 为 空 , 对 ShuffleDependency(RDD FE) 调用 createShuffleMapStage， 
RDDF 之 前 的 RDD C 到 RDDD、RDDEF; RDDE 到 RDDF 之 问 都 没有 Shuffle, 没 
有 宽 依 赖 就 不 会 产生 Stage。 因 此 ，RDDE 已 无 父 Stage， 创 建 Stage 2。 

口 最 后 ， 把 List(Stage 1,Stage 2) 作 为 Stage 3 的 父 Stage， 创建 Stage 3。Stage 3 是 
ResultStage。 

回 到 DAGScheduler.scala 的 handleJobSubmitted 方法 ， 首 先 通过 createResultStage 构建 

finalStage。 

handleJobSubmitted 的 源码 如 下 。 





5 | 病 private[scheduler] def handleJobSubmitted (jobId: Int, 
eon ea 
部 finalStage = createResultStage (finalRDD, func, partitions, jobId, 


= 
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callsite) 
es 
i val job = new ActiveJob (jobId, finalStage, callsSite, listener, 
properties) 
| 
y logInfo("Missing parents: " + getMissingParentStages (finalStage) ) 
G5 
人 submitStage (finalStage) 
| 


handleJobSubmitted 方法 中 的 ActiveJob 是 一 个 普通 的 数据 结构 ， 保 存 了 当前 Job 的 一 些 
信息 : 





二 private[spark] class RctiveJob( 
芭 val jobId: Int， 

三 val finalStage: Stage, 

好 val callsite: Callsite, 

5 val listener: JobListener, 

6 val properties: Properties) { 


handleJobSubmitted 方法 日 志 打 印信 息 : getMissingParentStages(finalStage))，getMissing- 
ParentStages 根据 finalStage 找 父 Stage， 如 果 有 父 Stage， 就 直接 返回 ; 如 果 没 有 父 Stage， 就 
进行 创建 。 

handleJobSubmitted 方法 中 的 submitStage 比较 重要 。submitStage 的 源码 如 下 。 





ek private def submitStage (stage: Stage) { 

汪汪 val jobId = activeJobForStage (stage) 

< 人 if (jobId.isDefined) { 

4. logDebug ("submitStage(" + stage + ")") 

5 if (!waitingStages (stage) && !runningStages (stage) && !failedStages 


(stage)) { 
6 val missing = getMissingParentStages (stage) .sortBy(_.id) 
时 全 logDebug ("missing: " + missing) 
8 if (missing.isEmpty) { 
9 logInfo("Submitting " + stage + " (" + stage.rdd + "), which has 
no missing parents") 
FH submitMissingTasks (stage, jobId.get) 
a } else { 
2 for (parent <- missing) { 
3 submitStage (parent) 
14. } 
5 waitingStages += stage 
16 . 
FE } 
18. } else { 
LE abortStage (stage, "No active job for stage " + stage.id, None) 
20. } 
二 


submitStage 首先 从 activeJobForStage 中 获得 JobID; 如 果 JobID 已 经 定义 isDefined， 那 
就 获得 即将 计算 的 Stage(getMissingParentStages)， 然 后 进行 升序 排列 。 如 果 父 Stage 为 空 ， 那 
么 提交 submitMissingTasks，DAGScheduler 把 处 理 的 过 程 交 给 具体 的 TaskScheduler 去 处 理 。 
如 果 父 Stage 不 为 空 ， 将 循环 递归 调用 submitStage(parent)， 从 后 往 前 回溯。 后 面 的 Stage 依 
赖 于 前 面 的 Stage。 也 就 是 说 ， 只 有 前 面 依赖 的 Stage 计算 完毕 后 ， 后 面 的 Stage 才 会 运行 。 
submitStage 一 直 循 环 调用 , 导致 的 结果 是 父 Stage 的 父 Stage…… 一 直 回 渊 到 最 左 侧 的 父 Stage 




















志和 证 过 
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开始 计算 。 
4.2.5 _ Stage 内 部 Task 获取 最 佳 位 置 的 算法 


Task 任务 本 地 性 算法 实现 : 

DAGScheudler 的 submitMissingTasks 方法 中 体现 了 如 何 利用 RDD 的 本 地 性 得 到 Task 的 
本 地 性 ， 从 而 获取 Stage 内 部 Task 的 最 佳 位 置 。 接 下 来 看 一 下 submitMissingTasks 的 源码 ， 
关注 Stage 本 身 的 算法 以 及 任务 本 地 性 。runningStages 是 一 个 HashSet[Stage] 数 据 结构 ， 表 示 
正在 运行 的 Stages， 将 当前 运行 的 Stage 增加 到 runningStages 中 ， 根 据 Stage 进行 判断 ， 如 
果 是 ShuffleMapStage， 则 从 getPreferredLocs(stage.rdd, id) 获 取 任 务 本 地 性 信息 ; 如 果 是 
ResultStage， 则 从 getPreferredLocs(stage.rdd, p) 获 取 任 务 本 地 性 信息 。 

DAGScheduler.scala 的 源码 如 下 。 





5 Private def submitMissingTasks (stage: Stage, jobId: Int) { 

ED 

s runningStages += stage 

| 

5 stage match { 

6 case s: ShuffleMapStage => 

7 outputCommitCoordinator.stageStart (stage = s.id, maxPartitionId = 
s.numPartitions - 1) 

BE case s: ResultStage => 

9. outputCommitCoordinator.stageStart ( 

L0G stage = s.id, maxPartitionId = s.rdd.partitions.length - 1) 

11: } 

1 


在 submitMissingTasks 中 会 通过 调用 以 下 代码 来 获得 任务 的 本 地 性 。 


val taskIdToLocations: Mapl[Int, Seq[TaskLocation]] = try { 

stage match { 

3 case s: ShuffleMapStage => 

4 partitionsToCompute .map { id => (id, getPreferredLocs (stage.rdd, 
id))}.toMap 


case s: ResultStage => 
partitionsToCompute.map { id => 
val p = s.partitions (id) 
(id, getPreferredLocs (stage.rdd, p)) 
} .toMap 


Fo oo ~ au 
a 


1 
partitionsToCompute 获得 要 计算 的 Partitions 的 id。 
a val partitionsToCompute: Seq[Int] = stage.findMissingPartitions() 
如 果 stage 是 ShuffleMapStage， 在 代码 partitionsToCompute.map { id 一 (id, getPreferredLocs 
(stage.rdd, id))}.toMap 中 ,id 是 partitions 的 id， 使 用 匿名 函数 生成 一 个 Tuple， 第 一 个 元 素 值 
是 数据 分 片 的 id, 第 二 个 元 素 是 把 rdd 和 id 传 进去 ,获取 位 置 getPreferredLocs。 然 后 通过 toMap 
转换 ,返回 Map[Int, Seq[TaskLocation]]。 第 一 个 值 是 partitions 的 id, 第 二 个 值 是 TaskLocation。 
具体 一 个 Partition 中 的 数据 本 地 性 的 算法 实现 在 下 述 getPreferredLocs 代码 中 。 


es private[spark] 





人 
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def getPreferredLocs (rdd: RDD[ ], partition: Int): Seq[TaskLocation] = { 
getPreferredLocsInternal (rdd, partition, new HashSet) 


} 


getPreferredLocsIntermal 是 getPreferredLocs 的 递归 实现 : 这 个 方法 是 线程 安全 的 ， 它 只 
能 被 DAGScheduler 通过 线程 安全 方法 getCacheLocs() 使 用 。 
getPreferredLocsIntemal 的 源码 如 下 。 
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private def getPreferredLocsInternal( 

rdd: RDDI 1]; 

partition: Int, 

Visited: HashSet[(RDD[ ], Int)]): Seq[TaskLocation] = { 
// 如 果 分 区 已 被 访问 ， 则 无 须 重新 访问 。 这 避免 了 路 径 探索 。SPARK-695 
if (!visited.add((rdd, partition))) { 

// 已 访问 的 分 区 返回 零 

return Nil 
fF 
// 如 果 分 区 已 经 缓存 ， 返 回 缓存 的 位 置 
val cached = getCacheLocs (rdd) (partition) 
if (cached.nonEmpty) { 

return cached 
// 如 果 RDD 位 置 优先 (输入 RDDs 的 情况 ) ， 就 获取 它 
val rddPrefs = rdd.preferredLocations (rdd.partitions (partition)) 
.toList 
if (rddPrefs.nonEmpty) { 

return rddPrefs.map(TaskLocation( )) 


} 


// 如 果 RDD 是 窄 依赖 ,将 选择 第 一 个 窒 依 赖 的 第 一 分 区 作为 位 置 首 选项 。 理 想 情况 下 ,我 们 
// 将 基于 传输 大 小 选择 
rdd.dependencies .foreach { 
case n: NarrowDependency[ ] => 
for (inPart <- n.getParents (partition)) { 
val locs = getPreferredLocsInternal (n.rdd, inPart, visited) 
if (locs != Nil) { 
return locs 


Nil 


getPreferredLocsIntermal 代码 中 : 

在 visited 中 把 当前 的 RDD 和 partition 加 进去 是 否 能 成 功 ，visited 是 一 个 HashSet， 如 果 
己 经 有 就 出 错 。 

如 果 partition 被 缓存 (partition 被 缓存 是 指数 据 已 经 在 DAGScheduler 中 ) ， 则 在 
getCacheLocs(rdd)(partition) 传 入 rdd 和 partition， 获 取 缓 存 的 位 置信 息 。 如 果 获 取 到 缓存 位 置 
信息 ， 就 返回 。 

getCacheLocs 的 源码 如 下 。 


1 


“114: 





private[scheduler] 
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2 def getCacheLocs (rdd: RDD[ ]): IndexedSeq[Seq[TaskLocation]] = 
cacheLocs.synchronized { 


SB // 注 意 : 这 个 不 用 getOrElse () ， 因 为 方法 被 调用 0 (任务 数 ) 次 

a if (!cacheLocs.contains(rdd.id)) { 

5 // 注 : 如 果 存 储 级 别 为 NONE， 我 们 不 需要 从 块 管理 器 获取 位 置信 息 

请 val locs: IndexedSeq[Seq[TaskLocation]] = if (rdd.getStorageLevel 
== StorageLevel .NONE) { 

IndexedSeq.fill (rdd.partitions.length) (Nil) 

8. } else { 

5 val blockIds = 

TDs rdd.partitions.indices.map (index => RDDBlockId (rdd.id, 

index)) .toArray[BlockId] 

再 下 blockManagerMaster .getLocations (blockIds) .map { bms => 

人 bms .map (bm => TaskLocation (bm.host, bm.executorId)) 

33= 

14. } 

cacheLocs (rdd.id) = locs 

16. } 

;有 坟 cacheLocs (rdd.id) 

1 


getCacheLocs 中 的 cacheLocs 是 一 个 HashMap, 包含 每 个 RDD 的 分 区 上 的 缓存 位 置信 息 。 
map 的 key 值 是 RDD 的 ID，Value 是 由 分 区 编号 索引 的 数组 。 每 个 数组 值 是 RDD 分 区 缓存 
位 置 的 集合 。 


:| private val cacheLocs = new HashMap [Int, IndexedSeq[Seq[TaskLocation]]] 


getPreferredLocsIntemal 方法 在 具体 算法 实现 的 时 候 首 先 查 询 DAGScheduler 的 内 存 数据 
结构 中 是 否 存 在 当前 Partition 的 数据 本 地 性 的 信息 ， 如 果 有 ， 则 直接 返回 ， 如 果 没 有 ， 首 先 
会 调用 rdd.getPreferedLocations。 

如 果 自 定义 RDD， 那 一 定 要 写 getPreferedLocations， 这 是 RDD 的 五 大 特征 之 一 。 例 如 ， 
想 让 Spark 运行 在 HBase 上 或 者 运行 在 一 种 现在 还 没有 直接 支持 的 数据 库 上 面 ， 此 时 开发 者 
需要 自 定义 RDD。 为 了 保证 Task 计算 的 数据 本 地 性 ， 最 关键 的 方式 是 必须 实现 RDD 的 
getPreferedLocations。 数 据 不 动 代码 动 ， 以 HBase 为 例 ，Spark 要 操作 HBase 的 数据 ， 要 求 
Spark 运行 在 HBase 所 在 的 集群 中 ，HBase 是 高 速 数据 检索 的 引擎， 数据 在 哪里 ，Spark 也 需 
要 运行 在 哪里 。Spark 能 支持 各 种 来 源 的 数据 ， 核 心 就 在 于 getPreferedLocations。 如 果 不 实现 
getPreferedLocations， 就 要 从 数据 库 或 HBase 中 将 数据 抓 过 来 ， 速 度 会 很 慢 。 

RDD.scala 的 getPreferedLocations 的 源码 如 下 。 
final def preferredLocations (split: Partition): Seq[String]l = { 
checkpointRDD.map( .getPreferredLocations(split)) .getOrElse { 

getPreferredLocations (split) 


} 
} 


mw 


这 是 RDD 的 getPreferredLocations。 
1. protected def getPreferredLocations(split: Partition) : Seq[String] =Nil 


这 样 ， 数 据 本 地 性 在 运行 前 就 已 经 完成 ， 因 为 RDD 构建 的 时 候 已 经 有 元 数据 的 信息 。 
说 明 : 本 节 代 码 基 于 Spark 2.2 的 源码 版 本 。 
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DAGScheduler 计算 数据 本 地 性 的 时 候 巧 妙 地 借助 了 RDD 自身 的 getPreferedLocations 中 
的 数据 , 最 大 化 地 优化 效率 ,因为 getPreferedLocations 中 表明 了 每 个 Partition 的 数据 本 地 性 ， 
虽然 当前 Partition 可 能 被 persist 或 者 checkpoint， 但 是 persist 或 者 checkpoint 默认 情况 下 肯 
定 和 getPreferedLocations 中 的 Partition 的 数据 本 地 性 是 一 致 的 , 所 以 这 就 极 大 地 简化 了 Task 
数据 本 地 性 算法 的 实现 和 效率 的 优化 。 








4.3 TaskScheduler 解析 


TaskScheduler 的 核心 任务 是 提交 TaskSet 到 集群 运算 并 汇报 结果 。 

(1) 为 TaskSet 创建 和 维护 一 个 TaskSetManager， 并 追踪 任务 的 本 地 性 以 及 错误 信息 。 
(2) 遇 到 Straggle 任务 时 ， 会 放 到 其 他 节点 进行 重 试 。 

(3) 向 DAGScheduler 汇报 执行 情况 ,包括 在 Shuffle 输出 丢失 的 时 候 报告 fetch failed 错 


4.3.1 TaskScheduler 原理 剖析 


DAGScheduler 将 划分 的 一 系列 的 Stage (每 个 Stage 封装 一 个 TaskSet)， 按 照 Stage 的 先 
后 顺序 依次 提交 给 底层 的 TaskScheduler 去 执行 。 接 下 来 我 们 分 析 TaskScheduler 接收 到 
DAGScheduler 的 Stage 任务 后 ， 是 如 何 来 管理 Stage(TaskSeb 的 生命 周期 的 。 

首先 ， 回 顾 一 下 DAGScheduler 在 SparkContext 中 实例 化 的 时 候 ，TaskScheduler 以 及 
SchedulerBackend 就 已 经 先 在 SparkContext 的 createTaskScheduler 创建 出 实例 对 象 了 。 

虽然 Spark 支持 多 种 部 署 模式 〈 包 括 Local、Standalone、YARN、Mesos 等 )， 但 是 底层 
调度 器 TaskScheduler 接口 的 实现 类 都 是 TaskSchedulerImpl。 并 且 ， 考 虑 到 方便 读者 对 
TaskScheduler 的 理解 ， 对 于 SchedulerBackend 的 实现 ， 我 们 也 只 专注 Standalone 部 署 模式 下 
的 具体 实现 StandaloneSchedulerBackend 来 作 分 析 。 

TaskSchedulerImpl 在 createTaskScheduler 方法 中 实例 化 后 ， 就 立即 调用 自己 的 initialize 
方法 把 StandaloneSchedulerBackend 的 实例 对 象 传 进来 ， 从 而 赋值 给 TaskSchedulerImpl 的 
backend。 在 TaskSchedulerImpl 的 initialize 方法 中 ， 根 据 调 度 模 式 的 配置 创建 实现 了 
SchedulerBuilder 接口 的 相应 的 实例 对 象 ， 并 且 创建 的 对 象 会 立即 调用 buildPools 创建 相应 数 
量 的 Pool 存放 和 管理 TaskSetManager 的 实例 对 象 。 实 现 SchedulerBuilder 接口 的 具体 类 都 是 
SchedulerBuilder 的 内 部 类 。 

(1) FIFOSchedulableBuilder: 调度 模式 是 SchedulingModeEFIFO， 使 用 先进 先 出 策略 调 
度 。 先 进 先 出 〈FIFO) 为 默认 模式 。 在 该 模式 下 只 有 一 个 TaskSetManager 池 。 

(2) FairSchedulableBuilder: 调度 模式 是 SchedulingMode.FAIR， 使 用 公平 策略 调度 。 

在 createTaskScheduler 方法 返回 后 , TaskSchedulerImpl 通过 DAGScheduler 的 实例 化 过 程 
设置 DAGScheduler 的 实例 对 象 。 然 后 调用 自己 的 start 方法 。 在 TaskSchedulerImpl 调用 start 
方法 的 时 候 , 会 调用 StandaloneSchedulerBackend 的 start 方法 , 在 StandaloneSchedulerBackend 
的 start 方法 中 ， 会 最 终 注 册 应 用 程序 AppClient。TaskSchedulerImpl 的 start 方法 中 还 会 根据 
配置 判断 是 否 周期 性 地 检查 任务 的 推测 执行 。 
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TaskSchedulerImpl 启动 后 , 就 可 以 接收 DAGScheduler 的 submitMissingTasks 方法 提交 过 
来 的 TaskSet 进行 进一步 处 理 。TaskSchedulerImpl 在 submitTasks 中 初始 化 一 
TaskSetManager, 对 其 生命 周期 进行 管理 , 当 TaskSchedulerImpl 得 到 Worker 节点 上 的 Executor 
计算 资源 的 时 候 ， 会 通过 TaskSetManager 发 送 具体 的 Task 到 Executor 上 执行 计算 。 

如 果 Task 执行 过 程 中 有 错误 导致 失败 ,会 调用 TaskSetManager 来 处 理 Task 失败 的 情况 ， 
进而 通知 DAGScheduler 结束 当前 的 Task。TaskSetManager 会 将 失败 的 Task 再 次 添加 到 待 执 
行 Task 队列 中 。Spark Task 允许 失败 的 次 数 默认 是 4 次 ,在 TaskSchedulerImpl 初始 化 的 时 候 ， 
通过 spark.task.maxFailures 设置 该 值 。 

如 果 Task 执行 完毕 ， 执 行 的 结果 会 反馈 给 TaskSetManager， 由 TaskSetManager 通知 
DAGScheduler, DAGScheduler 根据 是 否 还 存在 待 执行 的 Stage， 继 续 进 代 提 交 对 应 的 TaskSet 
给 TaskScheduler 去 执行 ， 或 者 输出 Job 的 结果 

通过 下 面 的 调度 链 ，Executor 把 Task 执行 的 结 果 返 回 给 调度 器 (Scheduler)。 

(1) Executorrun 。 

(2) CoarseGrainedExecutorBackend.statusUpdate (发 送 StatusUpdate 消息 )。 

(3) CoarseGrainedSchedulerBackend.receive (处 理 StatusUpdate 消息 )。 

(4) TaskSchedulerImpl.statusUpdate。 

(5) TaskResultGetter.enqueueSuccessfulTask 或 者 enqueueFailedTask。 

(6) TaskSchedulerImpl.handleSuccessfulTask 或 者 handleFailedTask。 

(7) TaskSetManager.handleSuccessfulTask 或 者 handleFailedTask。 

(8) DAGSchedulertaskEnded 。 

(9) DAGSchedulerhandleTaskCompletion 。 

在 上 面 的 调度 链 中 值得 关注 的 是 : 第 〈7) 步 中 ，TaskSetManager 的 handleFailedTask 方 

去 会 将 失败 的 Task 再 次 添加 到 待 执行 Task 队列 中 。 在 第 〈6) 步 中 ，TaskSchedulerImpl 的 
handleFailedTask 方法 在 TaskSetManager 的 handleFailedTask 方法 返回 后 ， 会 调用 
CoarseGrainedSchedulerBackend 的 reviveOffers 方法 给 重新 执行 的 Task 获取 资源 。 











4.3.2 TaskScheduler 源码 解析 


是 Spark 的 底层 调度 器 。 底 层 调度 器 负责 Task 本 身 的 调度 运行 。 
下 面 编写 一 个 简单 的 测试 代码 ，setMaster("local-cluster[1, 1, 1024]") 设 置 为 Spark 本 地 伪 
分 布 式 开发 模式 ， 从 代码 的 运行 日 志 中 观察 Spark 框架 的 运行 情况 。 


object SparkTest { 
def main (args: Array[String]): Unit = { 
Logger .getLogger ("org") .setLevel (Level .ALL) 
val conf = new SparkConf () // 创 建 SparkConf 对 象 
conf.setAppName ("Wow, My First Spark App!") // 设 置 应 用 程序 的 名 称 ， 在 程序 
// 运 行 的 监控 界面 中 可 以 看 到 名 称 
从 = conf.setMaster ("local-cluster[1, 1, 1024]") 
Ns conf.setSparkHome (System.getenv ("SPARK HOME")) 
val sc = new SparkContext (conf) 
// 创 建 SparkContext 对 象 ， 通 过 传 入 SparkConf 
// 实 例 来 定制 Spark 运行 的 具体 参数 和 配置 信息 
9. sc.parallelize (Array ("100","200"),4) .count () 
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1 sc.stop() 
LE } 
2 


在 IDEA 中 运行 代码 ， 运 行 结果 中 打印 的 日 志 如 下 。 


1. Using Spark's default log4] profile: org/apache/spark/1og4j-defaults . 
properties 

2. 17/05/31 05:32:07 INFO SparkContext: Running Spark version 2.1.0 

Eh 

4 17/05/31 05:46:06 INFO WorkerWebUI: Bound WorkerWebUI to 0.0.0.0, and 

started at http://192.168.93.1:51034 

5. 17/05/31 05:46:06 INFO Worker: Connecting to master 192.168.93.1:51011... 

6. 17/05/31 05:46:06 INFO StandaloneAppClient$ClientEndpoint: Connecting to 
master spark://192.168.93.1:51011... 

7. 17/05/31 05:46:06 INFO TransportClientFactory: Successfully created 
connection to /192.168.93.1:51011 after 38 ms (0 ms spent in bootstraps) 

8. 17/05/31 05:46:06 INFO TransportClientFactory: Successfully created 
connection to /192.168.93.1:51011 after 100 ms (0 ms spent in bootstraps) 

9. 17/05/31 05:46:07 INFO Master: Registering worker 192.168.93.1:51033 with 
1 cores, 1024.0 MB RAM 

10. 17/05/31 05:46:07 INFO Worker: Successfully registered with master 
spark=//192. 068<:93=155U0LL 

11. 17/05/31 05:46:07 INFO Master: Registering app Wow,My First Spark App! 

12. 17/05/31 05:46:07 INFO Master: Registered app Wow,My First Spark App! with 
ID app-20170531054607-0000 

13. 17/05/31 05:46:07 INFO StandaloneSchedulerBackend: Connected to Spark 
cluster with app ID app-20170531054607-0000 

14. 17/05/31 05:46:07 INFO Master: Launching executor app-20170531054607- 
0000/0 on worker worker-20170531054606-192.168.93.1-51033 

15. 17/05/31 05:46:07 INFO Worker: Asked to launch executor app- 
20170531054607-0000/0 for Wow,My First Spark App! 

16. 17/05/31 05:46:07 INFO StandaloneAppClient$ClientEndpoint: Executor 
added: app-20170531054607-0000/0 on worker-20170531054606-192.168.93.1- 
51033 (192.168.93.1:51033) with 1 cores 


18. 17/05/31 05:46:07 INFO StandaloneSchedulerBackend: SchedulerBackend is 
ready for scheduling beginning after reached minRegisteredResourcesRatio: 0.0 
19. 17/05/31 05:46:07 INFO StandaloneAppClient$ClientEndpoint: Executor 
updated: app-20170531054607-0000/0 is now RUNNING 
日 志 中 显示 : StandaloneAppClient$ClientEndpoint: Connecting to master spark://192.168.93. 
1:50686 表明 StandaloneAppClient 的 ClientEndpoint 注册 给 master。 日 志 中 显示 StandaloneApp- 
Client$ClientEndpoint: Executor added 获取 了 Executor。 具 体 是 通过 StandaloneAppClient 的 
ClientEndpoint 来 管理 Executor。 日 志 中 显示 StandaloneSchedulerBackend: SchedulerBackend is 
ready for scheduling beginning after reached minRegisteredResourcesRatio: 0.0 说 明 Standalone- 
SchedulerBackend 已 经 准备 好 。 
这 里 是 在 IDEA 本 地 伪 分 布 式 运行 的 (通过 count 的 action 算 子 启动 了 Job) 。 如 果 是 通 
过 Spark-shell 运行 程序 来 观察 日 志 ， 当 启动 Spark-shell 本 身 的 时 候 ， 命 令 终 端 反 馈 回来 的 主 
要 是 ClientEndpoint 和 StandaloneSchedulerBackend， 因 为 此 时 还 没有 任何 Job 的 触发 ， 这 是 
启动 Application 本 身 而 已 ， 所 以 主要 就 是 实例 化 SparkContext， 并 注册 当前 的 应 用 程序 给 
Master， 且 从 集群 中 获得 ExecutorBackend 计算 资源 。 
IDEA 本 地 伪 分 布 式 运行 ，Job 启动 的 日 志 如 下 。 


: 17/05/31 05:46:08 INFO DAGScheduler: Got job 0 (count at SparkTest.scala: 
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17) with 4 output partitions 

17/05/31 05:46:08 INFO DAGScheduler: Final stage: ResultStage 0 (count 
at SparkTest.scala:17) 

17/05/31 05:46:08 INFO DAGScheduler: Parents of final stage: List() 
17/05/31 05:46:08 INFO DAGScheduler: Missing parents: List() 

17/05/31 05:46:08 INFO DAGScheduler: Submitting ResultStage 0 
(ParallelCollectionRDD[0] at parallelize at SparkTest.scala:17), which 
has no missing parents 

17/05/31 05:46:08 INFO DAGScheduler: Submitting 4 missing tasks from 
ResultStage 0 (ParallelCollectionRDD[0] at parallelize at SparkTest.scala:17) 


count 是 action 算 子 触发 了 Job; 然后 DAGScheduler 获取 Final stage: ResultStage， 提 交 
Submitting ResultStage 。 最 后 提交 任务 给 TaskSetManager， 启 动 任务 。 任 务 完 成 后 ， 
DAGScheduler 完成 Job。 

DAGScheduler 划分 好 Stage 后 ， 会 通过 TaskSchedulerImpl 中 的 TaskSetManager 来 管理 
当前 要 运行 的 Stage 中 的 所 有 任务 TaskSet。TaskSetManager 会 根据 locality aware 来 为 Task 
分 配 计算 资源 、 监 控 Task 的 执行 状态 (如 重 试 、 慢 任务 进行 推测 式 执行 等 )。 

TaskSet 是 一 个 数据 结构 ，TaskSet 包含 了 一 系列 高 层 调度 器 交 给 底层 调度 器 的 任务 的 集 
合 。 第 一 个 成 员 是 Tasks, 第 二 个 成 员 task 属于 哪个 Stage, stageAttemptId 是 尝试 的 ID ,priority 


Fo~awm 必 wm 


0. 





调度 的 时 候 有 一 个 调度 池 ， 调 度 归并 调度 的 优先 级 。 


Private[spark] class TaskSet( 
val tasks: Array[Task[ ]], 
Val stageId: Int, 
val stageAttemptId: Int, 
val priority: Int, 
val properties: Properties) { 
val id: String = stageId + "." + stageAttemptId 


override def toString: String = "TaskSet " + id 
} 


TaskSetManager 实例 化 的 时 候 完成 TaskSchedulerImpl 的 工作 ,接收 TaskSet 任务 的 集合 ， 
maxTaskFailures 是 任务 失败 重 试 的 次 数 。 
Spark 2.1.1 版 本 的 TaskSetManager.scala 的 源码 如 下 。 


Ys 
这 
3 
4. 
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private[spark] class TaskSetManager( 
sched: TaskSchedulerImpl, 
val taskSet: TaskSet, 
val maxTaskFailures: Int, 
clock: Clock = new SystemClock()) extends Schedulable with Logging { 


Spark 2.2.0 版 本 的 TaskSetManager.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 
段 代 码 中 第 4 行 之 后 增加 了 blacklistTracker 的 成 员 变 量 ， 用 于 黑 名 单列 表 executors 及 nodes 


的 跟踪 。 
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blacklistTracker: Option[BlacklistTracker] = None, 


TaskScheduler 与 SchedulerBackend 总 体 的 底层 任务 调度 的 过 程 如 下 。 
a. TaskSchedulerImpl.submitTasks: 主要 作用 是 将 TaskSet 加 入 到 TaskSetManager 中 进行 
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管理 。 


DAGScheduler.scala 收 到 JobSubmitted 消息 ， 调 用 handleJobSubmitted 方法 。 


:| 
2 


从 


private def doOnReceive (event: DAGSchedulerEvent): Unit = event match { 
case JobSubmitted (jobId, rdd, func, partitions, callSite, listener, 
properties) => 
dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, 
callSite, listener, properties) 


在 handleJobSubmitted 方法 中 提交 submitStage。 


private[scheduler] def handleJobSubmitted(jobId: Int, 


submitStage (finalStage) 
} 


submitStage 方法 调用 submitMissingTasks 提交 task。 


这 
£ 
4. 


private def submitStage (stage: Stage) { 


DAGScheduler.scala 的 submitMissingTasks 里 面 调用 了 taskScheduler.submitTasks。 
Spark 2.1.1 版 本 的 DAGScheduler.scala 的 源码 如 下 。 
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private def submitMissingTasks (stage: Stage, jobId: Int) { 
val tasks: Seq[Task[ ]] = try { 
stage match { 
case stage: ShuffleMapStage => 


new ResultTask (stage.id, stage.latestInfo.attemptId, 


if (tasks.size > 0) { 

logInfo("Submitting " + tasks.size + " missing tasks from " + stage 

bk i 2 了 GE 十 JI》 

stage.pendingPartitions ++= tasks.map( .PartitionId) 

logDebug ("New Pending Partitions: " + stage.pendingPartitions) 

taskScheduler.submitTasks (new TaskSet( 
tasks.toArray, stage.id, stage.latestInfo.attemptId, jobId, 
properties)) 

stage.latestInfo.submissionTime = Some (clock.getTimeMillis()) 


Spark 2.2.0 版 本 的 DAGScheduler.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 


口 
口 


= 120。 


上 段 代 码 中 第 14 行 打印 日 志 内 容 做 了 修改 。 
上 段 代 码 中 第 15 一 16 行 代码 删除 ， 删 除 代 码 stage.pendingPartitions ++= tasks.map 
(_partitionId)， 以 及 logDebug 语句 。 








logInfo(s"Submitting S${tasks.size} missing tasks from S$stage ($ 


第 4 章 ”Spark Driver 启动 内 幕 剖 析 








{stage.rdd}) (first 15 " + sn"tasks are for partitions ${tasks. 
take (15) .map( .partitionId)})") 


taskScheduler 是 一 个 接口 trait， 这 里 没有 具体 的 实现 。 


1. ”// 提 交 要 运行 的 任务 序列 
def submitTasks (taskSet: TaskSet): Unit 


taskScheduler 的 子 类 是 TaskSchedulerImpl，TaskSchedulerImpl 中 submitTasks 的 具体 实 
现 如 下 。 





< override def submitTasks (taskSet: TaskSet) { 
2 val tasks = taskSet.tasks 
3 logInfo("Adding task set " + taskSet.id + " with " + tasks.length + 
"sks™) 
ys this.synchronized { 
i val manager = createTaskSetManager (taskSet, maxTaskFailures) 
6 Val stage = taskSet.stageId 
了 大 Val stageTaskSets = 
8. taskSetsByStageIdAndAttempt .getOrElseUpdate (stage, new HashMap 
[Int, TaskSetManager]) 
Qs stageTaskSets (taskSet .stageAttemptId) = manager 
0 val conflictingTaskSet = stageTaskSets.exists { case ( , ts) => 
3 ts.taskSet != taskSet && !ts.isZombie 
全 } 
二 全 if (conflictingTaskSet) { 
4. throw new IllegalStateException(s"more than one active taskSet for 
stage $stage:" + 
5 s" ${stageTaskSets.toSeq.map{_. 2.taskSet.id}.mkstring(",")}") 
6. } 
Ts schedulableBuilder.addTaskSetManager (manager, manager.taskSet. 
properties) 
Bs 
9. if (!isLocal && !hasReceivedTask) { 
20 . starvationTimer.scheduleAtFixedRate (new TimerTask() { 
re override def run() { 
2 if (!hasLaunchedTask) { 
3 logwarning("Initial job has not accepted any resources; "+ 
24. "check your cluster UI to ensure that workers are registered "+ 
255 "and have sufficient resources") 
26. } else { 
2 this.cancel () 
2 . 
29° } 
305 }, STARVATION TIMEOUT MS, STARVATION TIMEOUT MS) 
2 } 
2 hasReceivedTask = true 
3 } 
34. backend.reviveOffers() 
= 





高 层 调度 器 把 任务 集合 传 给 了 TaskSet， 任 务 可 能 是 ShuffleMapTask， 也 可 能 是 
ResultTask。 获 得 taskSet.tasks 任务 赋值 给 变量 tasks。 人 然后 使 用 了 同步 块 synchronized， 在 同 
步 块 中 调用 createTaskSetManager， 创 建 createTaskSetManager。createTaskSetManager 代码 
如 下 。 

Spark 2.1.1 版 本 的 TaskSchedulerImpl.scala 的 源码 如 下 。 


“2a 
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private[scheduler] def createTaskSetManager( 
taskSet: TaskSet, 
maxTaskFailures: Int): TaskSetManager = { 
new TaskSetManager (this, taskSet, maxTaskFailures) 
} 


pODPP 


Spark 2.2.0 版 本 的 TaskSchedulerImpl.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 


上 有 段 代码 中 第 4 行 TaskSetManager 的 成 员 变 量 新 增加 了 blacklistTrackerOpt 变量 。 


TaskSchedulerImpl.scala 的 createTaskSetManager 会 调用 new0 〇 函数 创建 


一 个 


TaskSetManager， 传 进来 的 this 是 其 本 身 TaskSchedulerImpl、 任 务 集 taskSet、 最 大 失败 重 试 


次 数 maxTaskFailures。maxTaskFailures 是 在 构建 TaskSchedulerImpl 时 传 入 的 。 
而 TaskSchedulerImpl 是 在 SparkContext 中 创建 的 。SparkContext 的 源码 如 下 。 


:I val (sched, ts) = SparkContext.createTaskScheduler (this, master, 

deployMode) 

人 SchedulerBackend = sched 

EE taskScheduler = ts 

机 dagScheduler = new DAGScheduler (this) 

-下 heartbeatReceiver.ask[Boolean] (TaskSchedulerIsSet) 

| 

7. private def createTaskScheduler!( 

3 

-加 case SPARK REGEX(sparkUrl) => 

DE val scheduler = new TaskSchedulerImpl (sc) 

于 和 val masterUrls = sparkUrl.split(",") .map("spark://" + ) 

了 val backend = new StandaloneSchedulerBackend(scheduler, sc， 

masterUrls) 

及 scheduler.initialize (backend) 

4 (backend, scheduler) 

在 SparkContext.scala 中 ， 通 过 createTaskScheduler 创建 taskScheduler ， 而 在 
createTaskScheduler 方法 中 ， 模 式 匹 配 到 Standalone 的 模式 ， 用 new 函数 创建 一 个 
TaskSchedulerImpl。 

TaskSchedulerImpl 的 构造 方法 如 下 ，Spark 2.2 版 本 默认 情况 下 ， 将 获取 配置 文件 中 的 


config.MAX_TASK_FAILURES，MAX_TASK_FAILURES 默认 的 最 大 失败 重 试 次 数 是 4 次 。 














一 行 代 码 是 schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties)。 





到 TaskSchedulerImpl，createTaskSetManager 创建 了 TaskSetManager 后 ， 非 常 关 键 的 


b. SchedulableBuilder.addTaskSetManager: SchedulableBuilder 会 确定 TaskSetManager 的 


调度 顺序 ， 然 后 按照 TaskSetManager 的 locality aware 来 确定 每 个 Task 具体 运行 在 哪个 


ExecutorBackend 中 。 
schedulableBuilder 是 应 用 程序 级 别 的 调度 器 。SchedulableBuilder 是 一 个 接口 trait， 














建立 


调度 树 。buildPools: 建立 树 节点 pools。addTaskSetManager: 建立 叶子 节点 TaskSetManagers。 


5 全 private[spark] trait SchedulableBuilder { 
2 def rootPool: Pool 
i def buildPools(): Unit 


ue 
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4 def addTaskSetManager (manager: Schedulable, properties: Properties): 
Unit 

Sse} 

schedulableBuilder 支持 两 种 调度 模式 : FIFOSchedulableBuilder、FairSchedulableBuilder。 
FIFOSchedulableBuilder 是 先进 先 出 调度 模式 。FairSchedulableBuilder 是 公平 调度 模式 。 调 度 
策略 可 以 通过 spark-env.sh 中 的 spark.scheduler.mode 进行 具体 设置 ， 默 认 是 FIFO 的 方式 。 
可 到 TaskSchedulerImpl 的 submitTasks， 看 一 下 schedulableBuilder.addTaskSetManager 
中 的 调度 模式 schedulableBuilder。 


1. var schedulableBuilder: SchedulableBuilder = null 














schedulableBuilder 是 SparkContext 中 new TaskSchedulerImpl(sc) 在 创建 TaskSchedulerImpl 的 
时 候 通 过 scheduler.initialize(backend) 的 initialize 方法 对 schedulableBuilder 进行 了 实例 化 。 

具体 调度 模式 有 FIFO 和 FAIR 两 种 ， 对 应 的 SchedulableBuilder 也 有 两 种 ， 即 
FIFOSchedulableBuilder、FairSchedulableBuilder。initialize 方法 中 的 schedulingMode 模式 默 
认 是 FIFO。 
直到 TaskSchedulerImpl 的 submitTasks，schedulableBuilder.addTaskSetManager 之 后 ， 关 
键 的 一 行 代 码 是 backend.reviveOffers()。 

c. CoarseGrainedSchedulerBackend.reviveOffers: 给 DriverEndpoint 发 送 ReviveOffers。 
SchedulerBackend.scala 的 reviveOffers 方法 没有 具体 实现 。 














: private[spark] trait SchedulerBackend { 

private val appId = "spark-application-" + System.currentTimeMillis 
def start(): Unit 

def stop(): Unit 

def reviveOffers(): Unit 

def defaultParallelism(): Int 


wo 心 wN 


CoarseGrainedSchedulerBackend 是 SchedulerBackend 的 子 类 。CoarseGrainedScheduler- 
Backend 的 reviveOffers 方法 如 下 。 


: override def reviveOffers() { 
六 driverEndpoint.send (ReviveOffers) 
3. } 


CoarseGrainedSchedulerBackend 的 reviveOffers 方 法 中 给 DriverEndpoint 发 送 ReviveOffers 
消息 ， 而 ReviveOffers 本 身 是 一 个 空 的 case object 对 象 ，ReviveOffers 本 身 是 一 个 空 的 case 
object 对 象 ， 只 是 起 到 触发 底层 资源 调度 的 作用 ， 在 有 Task 提交 或 者 计算 资源 变动 的 时 候 ， 
会 发 送 ReviveOffers 这 个 消息 作为 触发 器 。 


case object ReviveOffers extends CoarseGrainedClusterMessage 


TaskScheduler 中 要 负责 为 Task 分 配 计算 资源 : 此 时 程序 已 经 具备 集群 中 的 计算 资源 了 ， 
根据 计算 本 地 性 原则 确定 Task 具体 要 运行 在 哪个 ExecutorBackend 中 。 

driverEndpoint.send(ReviveOffers) 将 ReviveOffers 消息 发 送 给 driverEndpoint, 而 不 是 发 送 
给 StandaloneAppClient， 因 为 driverEndpoint 是 程序 的 调度 器 。driverEndpoint 的 receive 方法 
中 模式 匹配 到 ReviveOffers 消息 ， 就 调用 makeOffers 方法 。 
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override def receive: PartialFunction[Any, Unit] = { 
case StatusUpdate (executorId, taskId, state, data) => 
case ReviveOffers => 

makeOffers () 


d. 在 DriverEndpoint 接受 ReviveOffers 消息 并 路 由 到 makeOffers 具体 的 方法 中 : 在 
makeOffers 方法 中 首先 准备 好 所 有 可 以 用 于 计算 的 workOffers (代表 了 所 有 可 用 
ExecutorBackend 中 可 以 使 用 的 Cores 等 信息 ) 。 

Spark 2.1.1 版 本 的 CoarseGrainedSchedulerBackend.scala 的 源码 如 下 。 


PAODP 





了 private def makeOffers() { 

2 // 过 滤 掉 已 被 Kill 的 executors 节点 

< Val activeExecutors = executorDataMap.filterKeys (executorIsAlive) 

4. val workOffers = activeExecutors.map { case (id, executorData) => 

5 new Workeroffer (id， executorData.executorHost, executorData . 
freeCores) 

6. } .toIndexedSeq 

上 launchTasks (scheduler .resourceOffers (workOffers)) 

9 } 


Spark 2.2.0 版 本 的 CoarseGrainedSchedulerBackend.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具 
有 如 下 特点 。 
口 上 段 代 码 中 第 3 行 之 前 新 增 一 行 代 码 :增加 了 同步 锁 CoarseGrainedSchedulerBackend 
this.synchronized。 
口 上 段 代码 中 第 6 行 之 前 ， 新 增 代 码 scheduler.resourceOffers(workOffers)。 
口 删除 toIndexedSeq 语句 。 
口 上 段 代 码 中 第 7 行 代码 launchTasks 调整 : 增加 taskDescs 不 为 空 的 逻辑 判断 ， 然 后 


launchTasks。 
和 private def makeOffers() { 
2 // 在 执行 某 项 任务 时 ， 确 保 没有 executor 节点 被 Kill 
3 val taskDescs = CoarseGrainedSchedulerBackend.this.synchronized { 
0 
5 scheduler.resourceOffers (workOffers) 
6 } 
了 if (!taskDescs.isEmpty) { 
8 launchTasks (taskDescs) 
Ds } 
10. } 


其 中 的 executorData 类 如 下 ， 包 括 freeCores、totalCores 等 信息 。 


private[cluster] class ExecutorData( 
val executorEndpoint: RpcEndpointRef, 
val executorAddress: RpcAddress, 
override val executorHost: String, 
var freeCores: Int, 
override val totalCores: Int, 
override val logUrlMap: Map[String, String] 
) extends ExecutorInfo(executorHost, totalCores, logUrlMap) 


在 makeOffers 中 首先 找到 可 以 利用 的 activeExecutors, 然后 创建 workOffers。workOffers 
是 一 个 数据 结构 case class， 表 示 具 体 的 Executor 可 能 的 资源 。 这 里 只 考虑 CPU cores， 不 考 


OAANMAONDP 
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虑 内 存 ， 


:后 
2 





因为 之 前 内 存 已 经 分 配 完成 。 


private[spark] 
case class WorkerOffer (executorId: String, host: String, cores: Int) 


makeOffers 方法 中 ，TaskSchedulerImpl.resourceOffers 为 每 个 Task 具体 分 配 计算 资源 ， 
输入 offers: IndexedSeq[WorkerOffer] 一 维 数 组 是 可 用 的 计算 资源 ，ExecutorBackend 及 其 上 可 





用 的 Cores， 输 出 TaskDescription 的 二 维 数组 Seq[Seq[TaskDescription]] 定 义 每 个 任务 的 数据 


本 地 性 及 放 在 哪个 Executor 上 执行 。 

TaskDescription 包括 executorId，TaskDescription 中 已 经 确定 好 了 Task 具体 要 运行 在 哪 
个 ExecutorBackend 上 。 而 确定 Task 具体 运行 在 哪个 ExecutorBackend 上 的 算法 由 
TaskSetManager 的 resourceOffer 方法 决定 。 

Spark 2.1.1 版 本 的 TaskDescription.scala 的 源码 如 下 。 


二 
& 避 
4. 


5 
6 
hs 
8 


private[spark] class TaskDescription( 
val taskId: Long, 
val attemptNumber: Int, 
val executorId: String, 
val name: String, 
val index: Int, // 在 该 任务 中 的 TaskSet 的 索引 
_serializedTask: ByteBuffer) 
extends Serializable { 


Spark 2.2.0 版 本 的 TaskDescription.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 


口 


口 
口 


MAODP 


上 段 代 码 中 第 6 行 之 后 ，TaskDescription 类 的 成 员 变 量 中 增加 了 addedFiles、 
addedJars、properties 等 成 员 。 
上 段 代 码 中 第 7 行 _serializedTask 名 称 调整 为 val serializedTask。 
上 段 代码 中 第 8 行 删除 。 删 掉 继承 类 Serializable。 
el ee Map[String, Long], 
val addedJars: Map[String, Long], 


val properties: Properties, 
val serializedTask: ByteBuffer) { 


resourceOffers 由 群集 管理 器 调用 提供 slaves 的 资源 ， 根 据 优先 级 顺序 排列 任务 ， 以 循环 
的 方式 填充 每 个 节点 的 任务 ， 使 得 集群 的 任务 运行 均衡 。 
Spark 2.1.1 版 本 的 TaskSchedulerImpl.scala 的 源码 如 下 。 


户 


def resourceOffers (offers: IndexedSeq[WorkerOffer]): Seq[Seq[TaskDescription]] 
= synchronized { 
// 标 记 每 一 个 slave 节点 活跃 状态 ， 记 录 主 机 名 
// 如 是 新 的 executor 节点 增加 ， 则 进行 跟踪 
Var newExecAvail = false 
for (o <- offers) { 
if (!hostTogxecutors.contains(o.host)) { 
hostToExecutors (o.host) = new HashSet[String] () 
} 
if (!executorIdToRunningTaskIds.contains(o.executorId)) { 
hostToExecutors(o.host) += o.executorId 
executorAdded (o .executorId，o-host) 
executorIdToHost (o .executorId) = o.host 
executorIdToRunningTaskIds (o -executorId) = HashSet [Long] () 


Es 
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} 


newExecAvail = true 
} 
for (rack <- getRackForHost(o.host)) { 
hostsByRack .getOrElseUpdate (rack, new HashsSet[String] ()) += 
o.host 
} 
| 


// 随 机 洗 牌 ， 避 免 总 是 把 任务 放 在 同一 组 worker 节点 
val shuffledoffers = Random.shuffle (offers) 
// 建 立 要 分 配给 每 个 worker 节点 的 任务 列表 
val tasks = Shuffledoffers.map (o => new ArrayBuffer 
[TaskDescription] (o.cores) ) 
val availableCpus = shuffledoffers.map(o => o.cores) .toArray 
val sortedTaskSets = rootPool.getSortedTaskSetQueue 
for (taskSet <- sortedTaskSets) { 
logDebug ("parentName: %s, name: %s, runningTasks: %s".format( 
taskSet .parent .name, taskSet.name, taskSet.runningTasks)) 
if (newExecAvail) { 
taskSet .executorAdded () 


// 把 每 个 TaskSet 放 在 调度 顺序 中 ， 然 后 提供 它 的 每 个 节点 本 地 性 级 别 的 递增 顺序 ， 以 便 
// 它 有 机 会 启动 所 有 任务 的 本 地 任务 
// 注 意 : 数据 本 地 性 优先 级 别 顺序 : PROCESS_LOCRLT，NODE LOCAL, NO_PREF, 
//RACK LOCAL, ANY 
for (taskSet <- sortedTaskSets) { 
Var launchedAnyTask = false 
var launchedTaskAtCurrentMaxLocality = false 
for (currentMaxLocality <- taskSet.myLocalityLevels) { 
do 1{ 
launchedTaskAtCurrentMaxLocality = resourceOfferSingleTaskSet( 
taskSet, currentMaxLocality, shuffledOoffers, availableCpus, tasks) 
launchedAnyTask |= launchedTaskAtCurrentMaxLocality 
} while (launchedTaskAtCurrentMaxLocality) 
j 
if (!launchedAnyTask) { 
taskSet .abortIfCompletelyBlacklisted (hostToExecutors) 
| 
上 


4 (Easks .slize > 0 
hasLaunchedTask = true 


1 


return tasks 


Spark 2.2.0 版 本 的 TaskSchedulerImpl.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 
口 上 段 代码 中 第 22 行 之 前 新 增加 一 段 代码 ， 删 除 黑 名 单 节点 。 
口 上 段 代 码 中 第 22 行将 Random.shuffle(offers) 调 整 为 shuffleOffers(filteredOffers)。 


“26s 





// 在 分 配 资源 之 前 ， 删 除 黑 名 单列 表 中 已 过 期 的 任何 节点 。 这 么 做 是 为 了 避免 单独 的 线程 和 增加 
// 同 步 开 销 ， 也 因为 黑 名 单 的 更 新 只 有 在 分 配 任务 Task 资源 时 才 是 相关 的 


blacklistTrackerOpt.foreach( .applyBlacklistTimeout()) 


val filteredoffers = blacklistTrackerOpt.map { blacklistTracker => 
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| 请 dffers filter | offer => 
y !blacklistTracker.isNodeBlacklisted(offer.host) && 
8 I!blacklistTracker.isExecutorBlacklisted (offer.executorId) 


$ 
10. } .getOrElse (offers) 
了 
2 val shuffledoffers = shuffleOffers (filteredoffers) 
RS 


resourceOffers 中 : 

口 标记 每 一 个 活着 的 slave， 记 录 它 的 主机 名 ， 并 跟踪 是 否 增加 了 新 的 Executor。 感 知 

口 offers 是 集群 有 哪些 可 用 的 资源 ， 循 环 遍历 offers，hostToExecutors 是 否 包 含 当前 的 
host， 如 果 不 包含 ， 就 将 Executor 加 进去 。 因 为 这 里 是 最 新 请 求 ， 获 取 机 器 有 哪些 可 
用 的 计算 资源 。 

口 getRackForHost 是 数据 本 地 性 ， 默 认 情况 下 ， 在 一 个 机 架 Rack 里 面 ， 生 产 环境 中 可 

能 分 阁 干 个 机 架 Rack。 

口 重要 的 一 行 代码 val shuffledOffers = Random.shuffle(offers): 将 可 用 的 计算 资源 打 散 。 

口 tasks 将 获得 洗 牌 后 的 shuffledOffers 通过 map 转换 ， 对 每 个 worker 用 了 
ArrayBuffer[TaskDescription]， 每 个 Executor 可 以 放 几 个 [TaskDescription]， 就 可 以 运 
行 多 少 个 任务 。 即 多 少 个 Cores, 就 可 以 分 配 多 少 任务 。ArrayBuffer 是 一 个 一 维 数组 ， 
数组 的 长 度 根据 当前 机 器 的 CPU 个 数 决定 。 

ArrayBuffer[TaskDescription](o.cores) 说 明 当 前 ExecutorBackend 上 可 以 分 配 多 少 个 Task， 

并 行 运行 多 少 Task， 和 RDD 的 分 区 个 数 是 两 个 概念 : 这 里 不 是 决定 Task 的 个 数 ，RDD 的 分 
区 数 在 创建 RDD 时 就 已 经 决定 了 。 这 里 ， 具 体 任务 调度 是 指 Task 分 配 在 哪些 机 器 上 ， 每 台 
机 器 上 分 配 多 少 Task， 一 次 能 分 配 多 少 Task。 

口 在 TaskSchedulerImpl 中 的 initialize 中 创建 rootPool， 将 schedulingMode 调度 模式 传 
进去 .rootPool 的 叶子 节点 是 TaskSetManagers, 按照 一 定 的 算法 计算 Stage 的 TaskSet 
调度 的 优先 顺序 。 

口 for 循 环 遍历 sortedTaskSets, 如 果 有 新 的 可 用 的 Executor, 通过 taskSet.executorAdded() 
加 入 taskSet。 

TastSetManager 的 executorAdded 方法 如 下 。 





: def recomputeLocality() { 

2 val previousLocalityLevel = myLocalityLevels (currentLocalityIndex) 
E myLocalityLevels = computeValidLocalityLevels () 

4. localityWaits = myLocalityLevels.map (getLocalityWait) 

i currentLocalityIndex = getLocalityIndex (previousLocalityLevel) 

6. } 

网 

8 def executorAdded() { 

加 recomputeLocality () 

05 i 


数据 本 地 优先 级 从 高 到 低 依次 为 : PROCESS LOCAL、NODE LOCAL、NO _PREF、 
RACK LOCAL、ANY。 其 中 ，NO_PREF 是 指 机 器 本 地 性 ， 一 台 机 器 上 有 很 多 Node，Node 
的 优先 级 高 于 机 器 本 地 性 。 
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口 
1 
2 
3 
4 
5 
6 


resourceOffers 中 追求 最 高 级 别 的 优先 级 本 地 性 源码 如 下 。 


for (taskSet <- sortedTaskSets) { 


var launchedAnyTask = false 
Var launchedTaskAtCurrentMaxLocality = false 
for (currentMaxLocality <- taskSet.myLocalityLevels) { 
由 GE 
launchedTaskAtCurrentMaxLocality = resourceOfferSingleTaskSet( 
taskSet, currentMaxLocality, shuffledoffers， availableCpus, 
tasks) 
launchedAnyTask |= launchedTaskAtCurrentMaxLocality 
} while (launchedTaskAtCurrentMaxLocality) 
} 
if (!launchedAnyTask) { 
taskSet .abortIfCompletelyBlacklisted (hostToExecutors) 
} 
有 


循环 遍历 sortedTaskSets， 对 其 中 的 每 个 taskSet， 首 先 考 虑 myLocalityLevels 的 优先 性 ， 
ImyLocalityLevels 计算 数据 本 地 性 的 Level， 将 PROCESS LOCAL、NODE LOCAL、NO_PREF、 
RACK LOCAL、ANY 循环 一 遍 。myLocalityLevels 是 通过 computeValidLocalityLevels 方法 获取 


到 的 。 


Spark 2.1.1 版 本 的 TaskSetManager.scala 的 computeValidLocalityLevels 的 源码 如 下 。 


9 


{ 


48 
二 9 
1 且 
21. 


225 
23. 


和 85 
hs 
2 
:攻关 
14. 
3 
16 . 
下 


Var myLocalityLevels: Array[TaskLocality] = computeValidLocalityLevels () 


private def computeValidLocalityLevels(): Array[TaskLocality.TaskLocality] = { 


import TaskLocality. {PROCESS LOCAL, NODE LOCAL, NO PREF, RACK LOCAL, 
ANY} 
val levels = new RrrayBuffer [TaskLocality.TaskLocality] 
if (!PendingTasksForExecutor .isEmpty && getLocalityWait (PROCESS LOCAL) != 
0 && pendingTasksForExecutor .keySet .exists(sched.isExecutorAlive( ))) { 
levels += PROCESS LOCAL 


} 
if (!pendingTasksForHost.isEmpty && getLocalityWait (NODE LOCAL) != 0 && 
pendingTasksForHost .keySet .exists (sched.hasExecutorsAliveOnHost( ))) { 
levels += NODE LOCAL 
1 
if (!pendingTasksWithNoPrefs.isEmpty) { 
levels += NO. PREF 
} 
if (!PendingTasksForRack .isEmpty && getLocalityWait (RACK LOCAL) != 0 && 
pendingTasksForRack.KkeySet .exists (sched.hasHostAliveOnRack(_))) 


levels += RACK_LOCAL 
bi 
levels += ANY 
logDebug ("Valid locality levels for " + taskSet + ": " + levels. 
mkstring(", ")) 
levels.toArray 


} 


Spark 2.2.0 版 本 的 TaskSetManager.scala 的 computeValidLocalityLevels 的 源码 与 Spark 
2.1.1 版 本 相 比 具有 如 下 特点 。 
口 上 段 代码 中 第 6 行 在 寺 逻 辑 判 断 时 去 掉 了 getLocalityWait 获取 数据 本 地 性 等 待 时 间 


“ae 


的 判断 。 
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口 上 段 代码 中 第 9 行 删 掉 了 getLocalityWait 判断 。 

口 上 段 代 码 中 第 16 行 删 掉 了 getLocalityWait 判断 。 

ET 

人 if (!pendingTasksForExecutor.isEmpty && 

CE pendingTasksForExecutor.keySet .exists (sched.isExecutorAlive( ))) 
{ 

A 

3 if (!pendingTasksForHost.isEmpty && 

7 pendingTasksForHost .keySet .exists (sched.hasExecutorsAliveOnHost( ))) { 

DN 

95 if (!pendingTasksForRack.isEmpty &é& 

证 pendingTasksForRack.keySet .exists (sched.hasHostAliveOnRack( ))) { 

LO 


resourceOfferSingleTaskSet 的 源码 如 下 。 


Ls private def resourceOfferSingleTaskSet( 

2 taskSet: TaskSetManager, 

3 maxLocality: TaskLocality, 

4. shuffledOoffers: Seq[WorkerOoffer], 

-i availableCpus: Array[Int], 

6 tasks: IndexedSeq[ArrayBuffer[TaskDescription]]) : Boolean = { 
Eh var launchedTask = false 

8 for (i <- 0 until shuffledOoffers.size) { 


> val execId = shuffledoffers (i) .executorId 

02 val host = shuffledOoffers(i).host 

本 if (availableCpus(i) >= CPUS PER TASK) { 

和 25 Try t 

3 for (task <- taskSet.resourceOffer (execId, host, maxLocality)) { 

14. tasks (i) += task 

了 六 val tid = task.taskId 

16. taskIdToTaskSetManager (tid) = taskSet 

Ts taskIdToExecutorId (tid) = execId 

8 executorIdToRunningTaskIds (execId) .add (tid) 

9 availableCpus (i) -= CPUS PER TASK 

0 assert (availableCpus (i) >= 0) 

之 上 = launchedTask = true 

区 2 } 

23- } catch, { 

“+ case e: TaskNotSerializableException => 

25= logError (s"Resource offer failed, task set ${taskSet.name} was 
not serializable") 

26. // 不 为 这 个 任务 提供 资源 ， 但 不 抛 出 错误 ， 以 允许 其 他 任务 集 提交 任务 

Zs return launchedTask 

28. 和 

之 95 } 

3DE } 

31.。 return launchedTask 

325 } 


resourceOfferSingleTaskSet 方法 中 的 CPUS_PER TASK 是 每 个 Task 默认 采用 一 个 线程 
进行 计算 的 。TaskSchedulerImpl.scala 中 CPUS_PER_TASK 的 源码 如 下 。 





ae //CPUs to request per task 
a val CPUS _ PER TASK = conf.getInt ("spark.task.cpus", 1) 














resourceOfferSingleTaskSet 方法 中 的 taskSet.resourceOffer， 通 过 调用 TaskSetManager 的 


a le 
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resourceOffer 最 终 确定 每 个 Task 具体 运行 在 哪个 ExecutorBackend 的 具体 的 Locality Level。 
Spark 2.1.1 版 本 的 TaskSetManager.scala 的 源码 如 下 。 


zh def resourceOffer!( 

2 execId: String, 

二 host: String, 

4 maxLocality: TaskLocality.TaskLocality) 
5 : Option[TaskDescription] = 

6 


7 


8. sched.dagScheduler.taskStarted(task, info) 

里 new TaskDescription (taskId = taskId, attemptNumber = attemptNum, execId, 
105 taskName, index, serializedTask) 

Te 


Spark 2.2.0 版 本 的 TaskSetManager.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 
段 代码 中 第 9 行 构建 TaskDescription 实例 时 ,新 增 传 入 addedFiles、addedJars、localProperties 


: 

CA new TaskDescription( 
3 

国志 sched.sc.addedFiles, 
-= 二 sched.sc.addedJars, 
65 task.localProperties, 
Ps 


以 上 内 容 都 在 做 一 件 事情 : 获取 Locality Level 本 地 性 的 层次 。DagScheduler 告诉 我 们 任 
务 运行 在 哪 台 机 器 上 ，DAGScheduler 是 从 数据 层面 考虑 preferedLocation 的 ，DAGScheduler 
从 RDD 的 层面 确定 就 可 以 ;而 TaskScheduler 是 从 具体 计算 Task 的 角度 考虑 计算 的 本 地 性 ， 
TaskScheduler 是 更 具体 的 底层 调度 。 本 地 性 的 两 个 层面 ，@ 数据 的 本 地 性 ，@ 计算 的 本 地 性 。 

总 结 : scheduler.resourceOffers 确定 了 每 个 Task 具体 运行 在 哪个 ExecutorBackend 上 ; 
resourceOffers 到 底 是 如 何 确定 Task 具体 运行 在 哪个 ExecutorBackend 上 的 呢 ? 

i 通过 Random.shuffle 方法 重新 洗 牌 所 有 的 计算 资源 ， 以 寻求 计算 的 负载 均衡 。 

i. 根据 每 个 ExecutorBackend 的 cores 的 个 数 声明 类 型 为 TaskDescription 的 ArrayBuffer 
数组 。 

jii. 如 果 有 新 的 ExecutorBackend 分 配给 我 们 的 Job, 此 时 会 调用 executorAdded 来 获得 最 
新 的 、 完 整 的 可 用 计算 资源 。 

iv. 通过 下 述 代码 追求 最 高 级 别 的 优先 级 本 地 性 。 


for (taskSet <- sortedTaskSets) { 

4 Var launchedAnyTask = false 

3 var launchedTaskAtCurrentMaxLocality = false 

for (currentMaxLocality <- taskSet.myLocalityLevels) { 

5 do 1{ 

6 launchedTaskAtCurrentMaxLocality = resourceOfferSingleTaskSet( 

入 taskSet, currentMaxLocality, shuffledOffers, availableCpus, 
tasks) 

区 launchedAnyTask |= launchedTaskAtCurrentMaxLocality 

a } while (launchedTaskAtCurrentMaxLocality) 

10. | 

;有 if (!launchedAnyTask) { 

于 党 taskSet .abortIfCompletelyBlacklisted (hostToExecutors) 
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人 

4 |; 

Vv. 通过 调用 TaskSetManager 的 resourceOffer 最 终 确定 每 个 Task 具体 运行 在 哪个 
ExecutorBackend 的 具体 的 Locality Level。 
到 CoarseGrainedSchedulerBackend.scala 的 launchTasks 方法 。 
Spark 2.1.1 版 本 的 CoarseGrainedSchedulerBackend.scala 的 源码 如 下 。 





互 











private def launchTasks (tasks: Seq[Seq[TaskDescription]]) { 

for (task <- tasks.flatten) { 

kk val serializedTask = ser.serialize (task) 

4 if (serializedTask.limit >= maxRpcMessageSize) { 

. scheduler.taskIdToTaskSetManager .get (task.taskId) .foreach 
{ taskSetMgr => 





6. try 
2 Var msg = "Serialized task %s:%d was %d bytes, which exceeds 
max allowed: "+ 
8 "spark.rpc.message.maxSize (%d bytes). Consider increasing "+ 
9 "spark.rpc.message.maxSize or using broadcast variables for 
large values." 
[局 msg = msg.format (task.taskId, task.index, serializedTask 
.limit, maxRpcMessageSize) 
全 = taskSetMgr .abort (msg) 
要 二 Jeatehoctf 
四 case e: Exception => logError ("Exception in error callback", 
e) 
4. } 
Se } 
6- } 
交 else { 
中 芭 Val executorData = executorDataMap (task.executorId) 
人 executorData.freeCores -= Scheduler.CPUS PER TASK 
20= 
2 logDebug(s"Launching task ${task.taskId} on executor id: 
${task.executorId} hostname: " + 
2 s"${executorData.executorHost}.") 
23: 
2 executorData .executorEndpoint. send (LaunchTask (new SerializableBuffer 
(serializedTask))) 
225e } 
这 6 } 
2 和 后 } 


Spark 2.2.0 版 本 的 CoarseGrainedSchedulerBackend.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具 





有 如 下 上 段 代码 中 第 3 行 调整 使 用 TaskDescription.encode 方法 编码 ， 对 任务 Task 进 
行 序列 化 。 

:Ns 

a val serializedTask = TaskDescription.encode (task) 

下 


e. 通过 launchTasks 把 任务 发 送 给 ExecutorBackend 去 执行 。 

launchTasks 首先 进行 序列 化 , 但 序列 化 Task 的 大 小 不 能 太 大 , 如 果 超 过 maxRpcMessageSize， 
则 提示 出 错 信息 。 

RpcUtils.scala 中 maxRpcMessageSize 的 定义 ，spark.rpc.message.maxSize 默认 设置 是 
128MB: 





x 
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private val maxRpcMessageSize = RpcUtils.maxMessageSizeBytes (conf) 

ee RS 

国史 def maxMessageSizeBytes (conf: SparkConf): Int = { 

4. val maxSizeInMB = conf.getInt ("spark.rpc.message.maxSize", 128) 

SS if (maxSizeInMB > MAX MESSAGE SIZE IN MB) { 

Ge throw new IllegalArgumentException( 

> s"spark.rpc.message.maxSize Should not be greater than S$MAX 
MESSAGE SIZE IN MB MB") 

8. 上 

加 maxSizeInMB * 1024 * 1024 

10 . } 

:hh Se ; 


Task 进行 广播 时 的 maxSizeImMB 大 小 是 128MB， 如 果 任 务 大 于 等 于 128MB， 则 Task 
直接 被 丢弃 掉 ; 如 果 小 于 128MB, 会 通过 CoarseGrainedSchedulerBackend 去 launchTask 到 具 
体 的 ExecutorBackend 上 。 

CoarseGrainedSchedulerBackend.scala 的 launchTasks 方法 : 通过 executorData. 
executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask))) 交 给 Task 要 运行 的 
ExecutorBackend， 给 它 发 送 一 个 消息 LaunchTask， 发 送 序列 化 的 Task。 

CoarseGrainedExecutorBackend 就 收 到 了 launchTasks 消息 ， 启 动 executor.launchTask。 


4.4 SchedulerBackend 解析 


本 节 讲 解 SchedulerBackend 原理 训 析 、SchedulerBackend 源码 解析 、Spark 程序 的 注册 机 
制 、Spark 程序 对 计算 资源 Executor 的 管理 等 内 容 。 


4.4.1 SchedulerBackend 原理 剖析 


以 Spark Standalone 部 署 方式 为 例 ，StandaloneSchedulerBackend 在 启动 的 时 候 构造 了 
StandaloneAppClient 实例 ， 并 在 该 实例 start 的 时 候 启动 了 _ ClientEndpoint 消息 循环 体 ， 
ClientEndpoint 在 启动 的 时 候 会 向 Master 注册 当前 程序 。 而 StandaloneSchedulerBackend 的 父 
类 CoarseGrainedSchedulerBackend 在 start 的 时 候 会 实例 化 类 型 为 DriverEndPoint (这 就 是 程 
序 运 行 时 的 经 典 的 对 象 Driver) 的 消息 循环 体 ，StandaloneSchedulerBackend 专门 负责 收集 
Worker 上 的 资源 信息 ， 当 ExecutorBackend 启动 的 时 候 ， 会 发 送 RegisteredExecutor 信息 向 
DriverEndpoint 注册 ， 此 时 StandaloneSchedulerBackend 就 掌握 了 当前 应 用 程序 拥有 的 计算 资 
源 , TaskScheduler 就 是 通过 StandaloneSchedulerBackend 拥有 的 计算 资源 来 具体 运行 Task 的 。 














4.4.2 SchedulerBackend 源码 解析 


StandaloneSchedulerBackend 收集 和 分 配 资源 给 调度 的 Task 使 用 。 
StandaloneSchedulerBackend.scala 的 源码 如 下 。 


1. private[spark] class StandaloneSchedulerBackend ( 


se 
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二 

De val command = Command ("org.apache.spark.executor. 
CoarseGrainedExecutorBackend", 

上 5 args, sc.executorEnvs, classPathEntries ++ testingClassPath, 

libraryPathEntries, javaOpts) 

A 

8. client = new StandaloneAppClient (sc.env.rpcEnv, masters, appDesc, this, 
conf) 

洛克 client.start () 

1 


在 StandaloneAppClient 的 start 方法 中 调用 new0 函 数 创 建 一 个 ClientEndpoint， 将 在 


ClientEndpoint 中 向 Master 注册 。 


StandaloneAppClient.scala 的 源码 如 下 。 


:ns 

def start() { 

SE // 启 动 rpcEndpoint; 将 直接 回调 到 1istener 

4. endpoint.set (rpcEnv.setupEndpoint ("AppClient", new ClientEndpoint 
(rpcEnv) ) ) 

上 于 } 


4.4.3 Spark 程序 的 注册 机 制 


在 上 面 的 源码 分 析 中 ，StandaloneAppClient 在 启动 的 时 候 创建 了 StandaloneAppClient 内 


部 类 ClientEndpoint 的 实例 对 象 作为 消息 循环 体 ， 以 便 向 Master 注册 当前 的 Application。 婚 
然 ClientEndpoint 是 RpcEndpoint 的 子 类 ， 那 么 就 会 有 这 样 的 生命 周期 : constructor -> onStart 
-> receive ->onStop。 根 据 这 个 原理 ， 我 们 来 看 ClientEndpoint 的 onStart 方法 代码 。 


StandaloneAppClient.scala 的 源码 如 下 。 


本 override def onStart () : Unit = { 
这 EEy i 

< registerWithMaster (1) 

网 } catch { 

5e 


ClientEndpoint 在 启动 时 就 立即 调用 registerWithMaster 来 注册 Application， 继 续 查 看 


registerWithMaster 方法 代码 。 


StandaloneAppClient.scala 的 源码 如 下 。 


private def registerWithMaster (nthRetry: Int) { 
// 向 所 有 Master 异步 地 尝试 注册 Application 
registerMasterFutures.set (tryRegisterAllMasters ()) 


am 心 wN 


ClientEndpoint 在 tryRegiesterAllMasters 方法 中 会 向 所 有 的 Master 尝试 注册 Application 。 


问 Master 发 送 RegisterApplication 消息 。 


StandaloneAppClient.scala 的 源码 如 下 。 


bE private def tryRegisterAllMasters(): Array[JFuture[ ]] = { 
eae 
3 val masterRef = rpcEnv.setupEndpointRef (masterAddress, Master. 


ide 


上 篇 ”内 核 解密 








ENDPOINT NAME) 
:9 masterRef .send (RegisterApplication (appDescription, self)) 


Master 也 是 RpcEndpoint 的 子 类 ， 所 以 可 以 通过 receive 方法 接收 DeployMessage 类 型 的 
消息 RegisterApplication。 
Master.scala 的 源码 如 下 。 


override def receive: PartialFunction[Any, Unit] = { 


OANAODP 


ClientEndpoint 最 后 在 receive 方法 中 得 到 来 自 Master 注册 好 Application 的 确认 消息 
RegisteredApplication 。 
StandaloneAppClient.scala 的 源码 如 下 。 
override def receive: PartialFunction[Any, Unit] = { 
case RegisteredApplication(appId , masterRef) => 


appId.set (appId ) 
registered.set (true) 


anODP 


至 此 ，Application 向 Master 注册 完毕 。 在 上 面 的 RegisterApplication 中 , 调用 了 schedule 
方法 ， 这 个 方法 将 完成 Application 的 调度 ， 并 在 Worker 节点 上 启动 分 配 好 的 Executor 给 
Application 使 用 。 


4.4.4 Spark 程序 对 计算 资源 Executor 的 管理 


从 TaskSchedulerImpl 的 submitTasks 的 方法 中 我 们 知道 ，Spark Standalone 部 署 模式 调用 
StandaloneSchedulerBackend 的 reviveOffers 方法 进行 TaskSet 所 需要 资源 的 分 配 , 得 到 足够 的 
资源 后 , 将 TaskSet 中 的 Task 逐个 发 送 到 Executor 去 执行 。 下 面 来 看 这 里 的 资源 , 即 Executor 
是 如 何 得 到 和 分 配 的 。 

StandaloneSchedulerBackend 的 reviveOffers 方法 很 简单 ， 就 是 发 送 一 个 ReviveOffers 消 
息 给 内 部 类 DriverEndpoint， 代 码 如 下 所 示 。 

CoarseGrainedSchedulerBackend.scala 的 源码 如 下 。 


国治 override def reviveOffers() { 
driverEndpoint.send (ReviveOffers) 
3. } 


DriverEndpoint 的 receive 方法 处 理 ReviveOffers 消息 也 很 简单 ， 就 是 调用 makeOffers 方 
法 。receive 方法 部 分 关键 代码 如 下 所 示 。 
CoarseGrainedSchedulerBackend.scala 的 源码 如 下 。 


全 override def receive: PartialFunction[Any, Unit] = { 


:134. 
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3. case ReviveOffers => 
makeOffers () 


DriverEndpoint 的 makeOffers 方法 首先 过 滤 出 Alive 状态 的 Executor 放 到 
activeExecutorsHahMap 变量 中 ， 然 后 使 用 id、ExecutorData ExecutorHost、ExecutorData freeCores 
构建 代表 Executor 可 用 资源 的 WorkerOffer。 然 后 是 最 重要 的 两 个 方法 调用 。 先 是 调用 
TaskSchedulerImpl 的 resourceOffers 得 到 TaskDescription 的 二 维 数 组 , 包含 Task ID、Executor 
ID、Task Index 等 Task 执行 需要 的 信息 。 然 后 回调 DriverEndpoint 的 launchTask 给 每 个 Task 
对 应 的 Executor 发 执行 Task 的 LaunchTask 消息 (其 实 是 由 CourseGrainedExecutorBackend 
转发 LauchTask 消息 )。 

TaskSchedulerImpl 的 resourceOffers 方法 返回 二 维 数组 TaskDescription 后 作为 
DriverEndpoint 的 launchTasks 方法 的 参数 ，DriverEndpoint 的 launchTasks 方法 中 首先 对 传 入 
的 tasks 进行 扁平 化 操作 (例如 ， 将 多 维 数组 降 维 成 一 维 数组 )， 得 到 所 有 的 Task， 然 后 遍历 
所 有 的 Task。 在 遍历 过 程 中 ， 调 用 serialize0 方 法 对 task 进行 序列 化 ， 得 到 serializedTask。 判 
断 如 果 serializedTask 大 于 等 于 Akka 帧 减 去 Akka 预 留 空间 大 小 ， 则 调用 TaskSetManager 的 
abort 方法 终止 该 任务 的 执行 ， 否 则 将 LaunchTask(new SerializableBuffer(serializedTask)) 消 息 
发 送 到 CoarseGrainedExecutorBackend。 

CoarseGrainedExecutorBackend 匹配 到 LaunchTask(data) 消 息 后 ， 首 先 调用 deserialized 方 
法 ， 反 序列 化 出 task， 然 后 调用 Executor 的 lauchTask 方法 执行 Task 的 处 理 。 


4.5 打通 Spark 系统 运行 内 幕 机 制 循环 流程 


Spark 通过 DAGScheduler 面向 整个 Job 划分 出 了 不 同 的 Stage， 划 分 Stage 之 后 ，Stage 
从 后 往 前 划分 ,执行 的 时 候 从 前 往 后 执行 ， 每 个 Stage 内 部 有 一 系列 的 任务 ，Stage 里 面 的 任 
务 是 并 行 计算 , 并 行 任务 的 逻辑 是 完全 相同 的 , 但 处 理 的 数据 不 同 。 DAGScheduler 以 TaskSet 
的 方式 ， 把 一 个 DAG 构建 的 Stage 中 的 所 有 任务 提交 给 底层 的 调度 器 TaskScheduler。 
TaskScheduler 是 一 个 接口 ， 与 具体 的 任务 解 看 合 ， 可 以 运行 在 不 同 的 调度 模式 下 ， 如 可 运行 
在 Standalone 模式 ， 也 可 运行 在 Yam 上 。 

Spark 基础 调度 (图 4-6) 包括 RDD Objects、DAGScheduler、TaskScheduler、Worker 等 内 容 。 








RDD Objects DAGScheduler TaskScheduler Worker 
有 和 区 司 ; | 画 | manager | - 3 
DAG — akset Task [Fa 
| 2 十 二 和 | | 
rddljoin(rdd2) split graph into launch tasks via execute tasks 
-groupBYy(-..)| srages of tasks cluster manager 
filter(...) 
. submit each retry failed or store and serve 
build operator DAG stage as ready straggling tasks blocks 


图 4-6 Spark 基础 调度 图 


-a 
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DAGScheduler 在 提交 TaskSet 给 底层 调度 器 的 时 候 是 面向 接口 TaskScheduler 的 ， 这 符 
合 面向 对 象 中 依赖 抽象 而 不 依赖 具体 的 原则 ， 带 来 底层 资源 调度 器 的 可 插 拔 性 ， 导 致 Spark 
可 以 运行 在 众多 的 资源 调度 器 模式 上 ， 如 Standalone、Yam、Mesos、Local、EC2、 其 他 自 定 
义 的 资源 调度 器 ; 在 Standalone 的 模式 下 我 们 聚焦 于 TaskSchedulerImpl。 

TaskScheduler 是 一 个 接口 Trait， 底 层 任务 调度 接口 ， 由 [org.apache.spark.scheduler. 
TaskSchedulerImpl] 实 现 。 这 个 接口 允许 插入 不 同 的 任务 调度 程序 。 每 个 任务 调度 器 在 单独 的 
SparkContext 中 调度 任务 。 任 务 调度 程序 从 每 个 Stage 的 DAGScheduler 获得 提交 的 任务 集 ， 
负责 发 送 任务 到 集群 运行 ， 如 果 任 务 运行 失败 ， 将 重 试 ， 返 回 DAGScheduler 事件 。 

Spark 2.1.1 版 本 的 TaskScheduler.scala 的 源码 如 下 。 

private[spark] trait TaskScheduler { 
private val appId = "spark-application-" + System.currentTimeMillis 
def rootPool: Pool 
def schedulingMode: SchedulingMode 


def start(): Unit 


PpooOJIANAONP 


/1 成功 初始 化 后 调用 (通常 在 Spark 上 下 文中 ) 。Yarn 使 用 这 个 来 引导 基于 优先 位 置 的 资源 
// 分 配 ， 等 待 从 节点 登记 等 
42 def postStartHook() { } 


14. // 从 群集 断 开 连 接 
15. def stop () : Unit 


17. ”// 提 交 要 运行 的 任务 序列 
18 . def submitTasks (taskSet: TaskSet): Unit 


20. // 取 消 Stage 
A def cancelTasks (stageId: Int, interruptThread: Boolean) : Unit 


23.  // 系 统 为 upcalls 设置 DAG 调度 ， 这 是 保证 在 submitTasks 被 调用 前 被 设置 
24:- def setDAGScheduler (dagScheduler: DAGScheduler): Unit 


26. // 获 取 集 群 中 使 用 的 默认 并 行 级 别 ， 作 为 对 作业 的 提示 
2 def defaultParallelism(): Int 


8 

2 
* 更 新 正 运行 任务 ， 让 master 知道 BlockManager 仍 活着 。 如 果 driver 知道 给 定 的 
* 块 管理 器 ， 则 返回 true; 和 否则， 返回 false， 指 示 块 管理 器 应 重新 注册 

30. */ 

Se 

2 def executorHeartbeatReceived!( 

六 3 execId: String, 

34. accumUpdates: Array[ (Long, Seq[lAccumulatorV2[ , _]])], 

SSe blockManagerId: BlockManagerId) : Boolean 

S06. 

3 YA 

38. * 获 取 与 作业 相关 联 的 应 用 程序 ID 

人 :全 * @return Rn application ID 

40. ba 


第 4 章 Spark Driver 启动 内 幕 剖 析 








41. def applicationId(): String = appId 


42 . 
3 
* 处 理 丢 失 的 executor 
44. a 
-上 def executorLost (executorId: String, reason: ExecutorLossReason): Unit 
46. 
47.  /** 
48. * 获 取 与 作业 相关 联 的 应 用 程序 的 尝试 ID 
49. 
So * @return 应 用 程序 的 尝试 ID 
SE a 
52. def applicationAttemptId(): Option[String] 
53s 
SA } 


Spark 2.2.0 版 本 的 TaskScheduler.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 
段 代 码 中 第 21 行 之 后 新 增加 了 killTaskAttempt 方法 。 





# 杀 死 任务 尝试 
来 


* @return 任务 是 否 成 功 被 杀 死 

*/ 

def killTaskAttempt (taskId: Long, interruptThread: Boolean, reason: 
String): Boolean 

Da 


aowm 心 wNP 


DAGScheduler 把 TaskSet 交 给 底层 的 接口 TaskScheduler， 具 体 实现 时 有 不 同 的 方法 。 
TaskScheduler 主要 由 TaskSchedulerImpl 实现 。 
TaskSchedulerImpl 也 有 自己 的 子 类 YamScheduler。 


:了 private[spark] class YarnScheduler (sc: SparkContext) extends 
TaskSchedulerImpl (sc) { 

区 

3 //RackResolver 记录 INFO 日 志 信息 时 ， 解 析 rack 的 信息 

光志 if (Logger.getLogger (classOf [RackResolver]) .getLevel == null) { 

5 Logger .getLogger (classOf [RackResolver]) .setLevel (Level .WARN) 

6. } 

Ws 

8 // 默 认 情 况 下 ，rack 是 未 知 的 

9. override def getRackForHost (hostPort: String): Option[String] = { 

105 val host = Utils.parseHostPort (hostPort). 1 

eh Option (RackResolver.resolve (sc.hadoopConfiguration, host). 
getNetworkLocation) 

22600 

Sek 


YamScheduler 的 子 类 YamClusterScheduler 实现 如 下 。 


:他 private[spark] class YarnClusterScheduler (sc: SparkContext) extends 
YarnScheduler (sc) { 

Zs logInfo("Created YarnClusterScheduler") 

Ds 

override def postStartHook() { 


3s 
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5 ApplicationMaster.sparkContextInitialized(sc) 

6 super .postStartHook () 

ye logInfo("YarnClusterScheduler.postSstartHook done") 
8. 

9. 

ek 


默认 情况 下 ， 我 们 研究 Standalone 的 模式 ， 所 以 主要 研究 TaskSchedulerImpl 。 





DAGScheduler 把 TaskSet 交 给 TaskScheduler，TaskScheduler 中 通过 TastSetManager 管理 具 
体 的 任务 。TaskScheduler 的 核心 任务 是 提交 TaskSet 到 集群 运算 ， 并 汇报 结果 。 


口 为 TaskSet 创建 和 维护 一 个 TaskSetManager， 并 追踪 任务 的 本 地 性 以 及 错误 信息 。 

口 遇 到 延 后 的 Straggle 任务 ， 会 放 到 其 他 节点 重 试 。 

口 向 DAGScheduler 汇报 执行 情况 ， 包 括 在 Shuffle 输出 lost 的 时 候 报 告 fetch failed 错 
TaskSet 是 一 个 普通 的 类 ， 第 一 个 成 员 是 tasks，tasks 是 一 个 数组 。TaskSet 的 源码 如 下 。 


private[spark] class TaskSet( 
val tasks: Array[Task[_]], 
val stageId: Int, 
val stageAttemptId: Int, 
val priority: Int, 
val properties: Properties) { 
val id: String = stageId + "." + stageAttemptId 








override def toString: String = "TaskSet " + id 


Fo~awmwN 


Oe} 


TaskScheduler 内 部 有 SchedulerBackend，SchedulerBackend 管理 Executor 资源 。 从 


Standalone 的 模式 来 讲 ， 具 体 实现 是 StandaloneSchedulerBackend (Spark 2.0 版 本 将 之 前 的 
AppClient 名 字 更 新 为 StandaloneAppClient) 。 


SchedulerBackend 本 身 是 一 个 接口 ， 是 一 个 trait。SchedulerBackend 的 源码 如 下 。 


8 private[spark] trait SchedulerBackend { 

2 private val appId = "spark-application-" + System.currentTimeMillis 

二 本 

‘人 def start(): Unit 

5 def stop(): Unit 

6. def reviveOffers(): Unit 

i def defaultParallelism(): Int 

9 def killTask (taskId: Long, executorId: String, interruptThread: 
Boolean): Unit = 

局 throw new UnsupportedOperationException 

11. def isReady(): Boolean = true 

2 

放生 /水 

UA * 获 取 与 作业 关联 的 应 用 ID 

LS5e 

6 * @return 应 用 程序 ID 

Is */ 

18. def applicationId(): String = appId 

9s 

205 /** 


2 * 如 果 集群 管理 器 支持 多 个 尝试 ， 则 获取 此 运行 的 尝试 ITD， 应 用 程序 运行 在 客户 端 模式 将 没 
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* 有 尝试 ID 
* @return 如 果 可 用 ， 返 回应 用 程序 尝试 ID 
*/ 
def applicationAttemptId(): Option[String] = None 
/** 
* 得 到 driver 日 志 的 URL。 这 些 URL 是 用 来 在 用 户 界面 中 显示 链接 driver 的 Executors 
* 选 项 卡 
来 


* Q@return Map 包含 日 志 名 称 和 URLs 
a 
def getDriverLogUrls: Option[Map[String, String]] = None 


5) 


StandaloneSchedulerBackend: 专门 负责 收集 Worker 的 资源 信息 。 接 收 Worker 癌 Driver 
注册 的 信息 ，ExecutorBackend 启动 的 时 候 进 行 注 册 ， 为 当前 应 用 程序 准备 计算 资源 ， 以 进程 


为 单位 。 


StandaloneSchedulerBackend 的 源码 如 下 。 


加 oo~awm 必 wm 


private[spark] class StandaloneSchedulerBackend ( 
scheduler: TaskSchedulerImpl, 
sc: SparkContext, 
masters: Array[String]) 
extends CoarseGrainedSchedulerBackend (scheduler, sc.env.rpcEnv) 
with StandaloneAppClientListener 
with Logging { 
private var client: StandaloneAppClient = null 


StandaloneSchedulerBackend 里 有 一 个 Client: StandaloneAppClient。 


~Iawm 心 wm 


private[spark] class StandaloneAppClient( 
rpcEnv: RpcEnv, 
masterUrls: Array[String], 
appDescription: ApplicationDescription, 
listener: StandaloneAppClientListener, 
conf: SparkConf) 

extends Logging { 


StandaloneAppClient 允许 应 用 程序 与 Spark standalone 集群 管理 器 通信 。 获 取 Master 的 
URL、 应 用 程序 描述 和 集群 事件 监听 器 ， 当 各 种 事件 发 生 时 可 以 回调 监听 器 。masterUrls 的 
格式 为 spark://host:port，StandaloneAppClient 需要 向 Master 注册 。 

StandaloneAppClient 在 StandaloneSchedulerBackend.scala 的 start 方法 启动 时 进行 赋值 ， 
用 new0 函 数 创建 一 个 StandaloneAppClient。 

Spark 2.1.1 版 本 的 StandaloneSchedulerBackend.scala 的 源码 如 下 。 


四 四 心情 


private[spark] class StandaloneSchedulerBackend( 


val appDesc = new ApplicationDescription(sc.appName, maxCores, 


* 
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sc.executorMemory, command, appUIAddress, sc.eventLogDir, sc.eventLogCodec, 
CoresPerExecutor, initialExecutorLimit) 


ye client =new StandaloneAppClient (sc.env.rpcEnv, masters, appDesc, this, 
conf) 

8. client.start() 

Ys launcherBackend.setState (SparkAppHandle.State .SUBMITTED) 

10. waitForRegistration() 

1 launcherBackend.setState (SparkAppHandle.sState .RUNNING) 

2 } 


Spark 2.2.0 版 本 的 StandaloneSchedulerBackend.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 
如 下 特点 : 上 段 代 码 中 第 6 行 ApplicationDescription 传 入 的 第 5 个 参数 appUIAddress 更 改 为 
webUrl。 


Se 
2. val appDesc = ApplicationDescription(sc.appName, maxCores, sc. 
executorMemory, command, webUrl, sc.eventLogDir,sc.eventLogCodec, 
coresPerExecutor, initialExecutorLimit) 


StandaloneAppClient.scala 中 ， 里 面 有 一 个 类 是 ClientEndpoint， 核 心 工 作 是 在 启动 时 向 
Master 注册 。StandaloneAppClient 的 start 方法 启动 时 , 就 调用 new 函数 创建 一 个 ClientEndpoint。 
StandaloneAppClient 的 源码 如 下 。 


private[spark] class StandaloneAppClient( 


private class ClientEndpoint (override val rpcEnv: RpcEnv) extends 
ThreadSafeRpcEndpoint 

4 with Logging { 

当局 

6. def start() { 

区 // 启 动 rpcEndpoint; 将 回调 1istener 

8 endpoint.set (rpcEnv.setupEndpoint ("AppClient", new ClientEndpoint 

(rpcEnv) ) ) 
~“ 1 


StandaloneSchedulerBackend 在 启动 时 构建 StandaloneAppClient 实例 ， 并 在 
StandaloneAppClient 实例 start 时 启动 了 ClientEndpoint 消息 循环 体 。ClientEndpoint 在 启动 时 
会 向 Master 注册 当前 程序 。 

StandaloneAppClient 中 ClientEndpoint 类 的 onStart0) 方 法 如 下 。 


override def onStart () : Unit = { 
try { 
registerWithMaster (1) 
eateh tn 
case e: Exception => 
logWarning ("Failed to connect to master", e) 
markDisconnected () 
stop() 
| 


Fo~awm 必 wm 


0. } 


这 是 StandaloneSchedulerBackend 的 第 一 个 注册 的 核心 功能 。 StandaloneSchedulerBackend 
继承 自 CoarseGrainedSchedulerBackend。 而 CoarseGrainedSchedulerBackend 在 启动 时 就 创建 
DriverEndpoint， 从 实例 的 角度 讲 ，DriverEndpoint 也 属于 StandaloneSchedulerBackend 实例 。 
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; private[spark] 
2. class CoarseGrainedSchedulerBackend (scheduler: TaskSchedulerImpl, val 
rpcEnv: RpcEnv) 


3 extends ExecutorAllocationClient with SchedulerBackend with Logging 

4. 1{ 

0 

和 class DriverEndpoint(override val rpcEnv: RpcEnv, sparkProperties: 
Seq[ (String, String)]) 

yi extends ThreadSafeRpcEndpoint with Logging { 

Be 


StandaloneSchedulerBackend 的 父 类 CoarseGrainedSchedulerBackend 在 start 的 时 候 会 实 
例 化 类 型 为 DriverEndpoint( 这 就 是 我 们 程序 运行 时 的 经 典 对 象 Driver) 的 消息 循环 体 。 
StandaloneSchedulerBackend 在 运行 时 向 Master 注册 申请 资源 , 当 Worker 的 ExecutorBackend 
启动 时 会 发 送 RegisteredExecutor 信息 向 DriverEndpoint 注册 ， 此 时 StandaloneSchedulerBackend 
就 掌握 了 当前 应 用 程序 拥有 的 计算 资源 , TaskScheduler 就 是 通过 StandaloneSchedulerBackend 
拥有 的 计算 资源 来 具体 运行 Task 的 ; StandaloneSchedulerBackend 不 是 应 用 程序 的 总 管 ， 应 
用 程序 的 总 管 是 DAGScheduler、TaskScheduler，StandaloneSchedulerBackend 向 应 用 程序 的 
Task 分 配 具体 的 计算 资源 ， 并 把 Task 发 送 到 集群 中 。 

SparkContext、DAGScheduler、TaskSchedulerImpl、StandaloneSchedulerBackend 在 应 用 
程序 启动 时 只 实例 化 一 次 ， 应 用 程序 存在 期 间 始 终 存在 这 些 对 象 。 

这 里 基于 Spark 2.2 版 本 讲解 : 

Spark 调度 器 三 大 核心 资源 : SparkContext 、DAGScheduler 、TaskSchedulerImpl， 
TaskSchedulerImpl 作为 具体 的 底层 调度 器 ， 运 行 时 需要 计算 资源 ， 因 此 需要 
StandaloneSchedulerBackend 。 StandaloneSchedulerBackend 设计 巧妙 的 地 方 是 启动 时 启动 
StandaloneAppClient， 而 StandaloneAppClient 在 start 时 有 一 个 ClientEndpoint 的 消息 循环 体 ， 
ClientEndpoint 的 消息 循环 体 启动 的 时 候 向 Master 注册 应 用 程序 。 

StandaloneSchedulerBackend 的 父 类 CoarseGrainedSchedulerBackend 在 start 启动 的 时 候 
会 实例 化 DriverEndpoint， 所 有 的 ExecutorBackend 启动 的 时 候 都 要 向 DriverEndpoint 注册 ， 
注册 最 后 落 到 了 StandaloneSchedulerBackend 的 内 存 数据 结构 中 ， 表 面 上 看 是 在 
CoarseGrainedSchedulerBackend， 但 是 实例 化 的 时 候 是 StandaloneSchedulerBackend， 注 册 给 
父 类 的 成 员 其 实 就 是 子 类 的 成 员 。 

作为 前 提问 题 : TaskScheduler 、StandaloneSchedulerBackend 是 如 何 启 动 的 ? 
TaskSchedulerImpl 是 什么 时 候 实例 化 的 ? 

TaskSchedulerImpl 是 在 SparkContext 中 实例 化 的 。 在 SparkContext 类 实例 化 的 时 候 ， 只 
要 不 是 方法 体 里 面 的 内 容 ， 都 会 被 执行 ，(sched, ts) 是 SparkContext 的 成 员 ， 将 调用 
createTaskScheduler 方法 。 调 用 createTaskScheduler 方法 返回 一 个 Tuple, 包括 两 个 元 素 : sched 
是 我 们 的 schedulerBackend; ts 是 taskScheduler。 





1. class SparkContext (config: SparkConf) extends Logging { 
2 
3. // 创 建 启动 调度 器 scheduler 
es val (sched, ts) = SparkContext .createTaskScheduler (this, master, 
deployMode) 

schedulerBackend = sched 

taskScheduler = ts 

dagScheduler = new DAGScheduler (this) 
_heartbeatReceiver.ask[Boolean] (TaskSchedulerIsSet) 


co ~ cn 
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createTaskScheduler 里 有 很 多 运行 模式 ， 这 里 关注 Standalone 模式 ， 首 先 调用 new0 函 数 
创建 一 个 TaskSchedulerImpl，TaskSchedulerImpl 和 SparkContext 是 一 一 对 应 的 ， 整 个 程序 运 
行 的 时 候 只 有 一 个 TaskSchedulerImpl， 也 只 有 一 个 SparkContext; 接着 实例 化 
StandaloneSchedulerBackend， 整 个 程序 运行 的 时 候 只 有 一 个 StandaloneSchedulerBackend。 
createTaskScheduler 方法 如 下 。 


加 private def createTaskScheduler( 

5 sc: SparkContext, 

二 master: String, 

4. deployMode: String): (SchedulerBackend, TaskScheduler) = { 

Ss import SparkMasterRegex. 

ee 

由 外 master match { 

(3 

居 case SPARK REGEX (SparkUT1) => 

a val scheduler = new TaskSchedulerImp]l (sc) 

Ee val masterUrls = sparkUrl.split(",") .map("spark://" + ) 

了 2 val backend = new StandaloneSchedulerBackend(scheduler, sc， 
masterUrls) 

Fe scheduler.initialize (backend) 

14. (backend, scheduler) 

LS ea 


在 SparkContext 实例 化 的 时 候 通过 createTaskScheduler 来 创建 TaskSchedulerImpl 和 
StandaloneSchedulerBackend。 然 后 在 createTaskScheduler 中 调用 scheduler.initialize(backend) 。 

initialize 的 方法 参数 把 StandaloneSchedulerBackend 传 进来 ，schedulingMode 模式 匹配 有 
两 种 方式 : FIFO、FAIR。 

initialize 的 方法 中 调用 schedulableBuilder.buildPools() 。 buildPools 方法 根据 
FIFOSchedulableBuilder、FairSchedulableBuilder 不 同 的 模式 重 载 方法 实现 。 





I private[spark] trait SchedulableBuilder { 

3 def rootPool: Poo 

a 

六 考 def buildPools(): Unit 

3 

全 def addTaskSetManager (manager: Schedulable, properties: Properties) : 
Unit 

人 于: 


initialize 的 方法 把 StandaloneSchedulerBackend 传 进来 了 ， 但 还 没有 启动 
StandaloneSchedulerBackend 。 在 TaskSchedulerImpl 的 initialize 方法 中 把 
StandaloneSchedulerBackend 传 进来 ， 从 而 赋值 为 TaskSchedulerImpl 的 backend; 在 
TaskSchedulerImpl 调用 start 方法 时 会 调用 backend.start 方法 , 在 start 方法 中 会 最 终 注 册 应 用 
程序 。 

下 面 来 看 SparkContext.scala 的 taskScheduler 的 启动 。 


过 val (sched, ts) = SparkContext.createTaskScheduler (this， master, 
deployMode) 

2 _schedulerBackend = sched 

Se _taskScheduler = ts 

4 _dagScheduler = new DAGScheduler (this) 


1 
6 _taskScheduler.start () 
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applicationId = taskScheduler.applicationId() 
applicationAttemptId = taskScheduler.applicationAttemptId() 
conf.set ("spark.app.id", applicationId) 


其 中 调用 了 _taskScheduler 的 start 方法 。 


private[spark] trait TaskScheduler { 


pODP 


TaskScheduler 的 start() 方 法 没有 有 具体 实现 。TaskScheduler 子 类 的 TaskSchedulerImpl 的 
start( 方 法 的 源码 如 下 。 


: override def start() { 

= backend.start () 

< 

a if (!isLocal && conf.getBoolean("spark.speculation", false)) { 

i logInfo("Starting speculative execution thread") 

6 speculationScheduler.scheduleAtFixedRate (new Runnable { 

i override def run(): Unit = Utils.tryOrStopSparkContext(sc) { 

8. checkSpeculatableTasks () 

9 } 

10. }, SPECULATION INTERVAL MS, SPECULATION INTERVAL MS, TimeUnit. 
MILLISECONDS) 

LL } 

cr 


TaskSchedulerImpl 的 start 通过 backend.start 启动 了 StandaloneSchedulerBackend 的 start 
方法 。 

StandaloneSchedulerBackend 的 start 方法 中 ， 将 command 封装 注册 给 Master，Master 转 
过 来 要 Worker 启动 具体 的 Executor。command 已 经 封装 好 指令 , Executor 具体 要 启动 进程 入 
口 类 CoarseGrainedExecutorBackend。 然 后 调用 new0 函 数 创建 一 个 StandaloneAppClient， 通 
过 client.start 启动 client。 

StandaloneAppClient 的 start 方法 中 调用 new0 函 数 创建 一 个 ClientEndpoint: 


:用 def start() { 

2 // 启 动 rpcEndpoint; 将 回调 1istener 

s 信 endpoint.set (rpcEnv.setupEndpoint ("AppClient", new ClientEndpoint 
(rpcEnv) )) 

加 } 


ClientEndpoint 的 源码 如 下 。 


1 private class ClientEndpoint (override val rpcEnv: RpcEnv) extends 
ThreadSafeRpcEndpoint 
with Logging { 
override def onSstart(): Unit = { 
try { 
registerWithMaster (1) 
} catch { 
case e: Exception => 
logWarning ("Failed to connect to master", e) 


oawm 必 wmwN 
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0 markDisconnected () 
i stop() 

12. ’ 

33- } 











ClientEndpoint 是 一 个 ThreadSafeRpcEndpoint。ClientEndpoint 的 onStart 方法 中 调 
registerWithMaster(1) 进 行 注 册 ， 疝 Master 注册 程序 。registerWithMaster 方法 如 下 。 


private def registerWithMaster (nthRetry: Int) { 
registerMasterFutures.set (tryRegisterAllMasters ()) 
registrationRetryTimer.set (registrationRetryThread.schedule (new 
Runnable { 

4 override def run(): Unit = { 

5 if (registered.get) { 

| 这 registerMasterFutures.get.foreach( .cancel (true) ) 

7 

8 








WNP 


registerMasterThreadPool .shutdownNow () 


else if (nthRetry >= REGISTRATION RETRIES) { 
9. markDead ("All masters are unresponsive! Giving up.") 


OS } else { 

抽 帅 registerMasterFutures.get.foreach( .cancel (true)) 
2 registerWithMaster (nthRetry + 1) 

13< } 

14. } 

5s }, REGISTRATION TIMEOUT SECONDS, TimeUnit .SECONDS)) 
16. } 


星 序 注册 后 ，Master 通过 schedule 分 配 资源 ， 通 知 Worker 启动 Executor，Executor 启 
动 的 进程 是 CoarseGrainedExecutorBackend，Executor 启动 后 又 转 过 来 向 Driver 注册 ，Driver 
其 实 是 StandaloneSchedulerBackend 的 父 类 CoarseGrainedSchedulerBackend 的 一 个 消息 循环 体 
DriverEndpoint。 

总 结 : 

在 SparkContext 实例 化 的 时 候 调 用 createTaskScheduler 来 创建 TaskSchedulerImpl 和 
StandaloneSchedulerBackend， 同 时 在 SparkContext 实例 化 的 时 候 会 调用 TaskSchedulerImpl 
的 start， 在 start 方法 中 会 调用 StandaloneSchedulerBackend 的 start， 在 该 start 方法 中 会 创建 
StandaloneAppClient 对 象 ， 并 调用 StandaloneAppClient 对 象 的 start 方法 , 在 该 start 方法 中 会 
创建 ClientEndpoint， 创 建 ClientEndpoint 时 会 传 入 Command 来 指定 具体 为 当前 应 用 程序 启 
动 的 Executor 的 入 口 类 的 名 称 为 CoarseGrainedExecutorBackend， 然 后 ClientEndpoint 启动 并 
通过 tryRegisterMaster 来 注册 当前 的 应 用 程序 到 Master 中 ，Master 接收 到 注册 信息 后 如 果 可 
以 运行 程序 ， 为 该 程序 生产 Job ID 并 通过 schedule 来 分 配 计算 资源 ， 具 体 计算 资源 的 分 配 是 
通过 应 用 程序 的 运行 方式 、Memory、cores 等 配置 信息 决定 的 。 最 后 ，Master 会 发 送 指令 给 
Worker, Worker 为 当前 应 用 程序 分 配 计算 资源 时 会 首先 分 配 ExecutorRunner。 ExecutorRunner 
内 部 会 通过 Thread 的 方式 构建 ProcessBuilder 来 启动 另外 一 个 JVM 进程 ， 这 个 JVM 进程 启 
动 时 加 载 的 main 方法 所 在 的 类 的 名 称 就 是 在 创建 ClientEndpoint 时 传 入 的 Command 来 指定 
具体 名 称 为 CoarseGrainedExecutorBackend 的 类 ， 此 时 JVM 在 通过 ProcessBuilder 启动 时 获 
得 了 CoarseGrainedExecutorBackend 后 加 载 并 调用 其 中 的 main 方法 ， 在 main 方法 中 会 实例 
化 CoarseGrainedExecutorBackend 本 身 这 个 消息 循环 体 ， 而 CoarseGrainedExecutorBackend 在 
实例 化 时 会 通过 回调 onStart 向 DriverEndpoint 发 送 RegisterExecutor 来 注册 当前 的 
CoarseGrainedExecutorBackend ， 此 时 DriverEndpoint 收 到 该 注册 信息 并 保存 在 
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StandaloneSchedulerBackend 实例 的 内 存 数据 结构 中 ， 这 样 Driver 就 获得 了 计算 资源 。 
CoarseGrainedExecutorBackend.scala 的 main 方法 如 下 。 





1 def mainl(args: Array[String]) { 

3 var driverUrl: String = null 

< Var executorId: String = null 

4. Var hostname: String = null 

5 var cores: Int = 0 

Gi var appId: String = null 

Var workerUrl: Option[String] = None 

8。 val userClassPath = new mutable.ListBuffer [URL] () 

ED 

La Var argv = args.toList 

i 

2 run (driverUrl, executorId, hostname, cores, appId, workerUrl, 
userClassPath) 

区 System.exit (0) 

4 于 


CoarseGrainedExecutorBackend 的 main 然后 开始 调用 run 方法 。 


Private def run( 

driverUrl: String, 

executorId: String, 

hostname: String, 

cores: Int, 

appId: String, 

workerUrl: Option[String], 

userClassPath: Seq[URL]) { 
10. env.rpcEnv.setupEndpoint ("Executor", new CoarseGrainedExecutorBackend ( 
Ej 呈 env.rpcEnv, driverUrl, executorId, hostname, cores, userClassPath, 
env)) 


oawm 必 wm 


在 CoarseGrainedExecutorBackend 的 main 方法 中 ， 通 过 env.rpcEnv.setupEndpoint 


("Executor", new CoarseGrainedExecutorBackend(env.IpcEnv，driverUrl，executorId，hostname， 
cores, userClassPath, env)) 构 建 了 CoarseGrainedExecutorBackend 实例 本 身 。 


4.6 本 章 总 结 


本 章 内 容 紧 紧 围绕 Spark 调度 器 (Scheduler) 的 运行 机 制 , 介绍 了 其 中 涉及 的 重要 概念 ， 
如 Spark Driver Program、 Spark Job、 高层 调度 器 (DAGScheduler)、 底 层 调度 器 (TaskScheduler) 
和 调度 器 的 通信 终端 (SchedulerBackend) 。 同 时 ， 从 外 围 的 运行 框架 ， 到 内 部 的 调度 器 和 通 
言 终 端 ， 分 别 深度 剖析 了 各 自 的 运行 原理 。 并 且 ， 每 个 原理 都 结合 了 Spark 源码 的 解析 ， 加 
深 对 整个 Spark 调度 器 运行 机 制 的 理解 。 

SparkContext、DAGScheduler、TaskScheduler、SchedulerBackend 在 应 用 程序 启动 时 只 实 
例 化 一 次 ， 应 用 程序 存在 期 间 始终 存在 这 些 对 象 。 
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本 章 深入 讲解 Spark 集群 启动 原理 和 源码 。5.1 节 讲 解 Master 启动 原理 和 源码 ; 5.2 节 讲 
解 Worker 启动 原理 和 源码 ; 5.3 节 曾 述 了 ExecutorBackend 启动 原理 和 源码 、ExecutorBackend 
接口 与 Executor 的 关系 、ExecutorBackend 的 不 同 实现 、ExecutorBackend 中 的 通信 及 异常 处 
理 ; 5.4 节 讲 解 Executor 中 任务 的 执行 、 加 载 、 任 务 线程 池 、 任 务 执行 失败 处 理 、TaskRunner 
运行 内 幕 ，5.5 节 讲 解 Executor 执行 结果 的 处 理 方式 。 


5.1] Master 启动 原理 和 源码 详解 


本 节 讲 解 Master 启动 的 原理 和 源码 ，Master HA 双 机 切换 ，Master 的 注册 机 制 和 状态 管 
理解 密 等 内 容 。 


5.1.1 Master 启动 的 原理 详解 


Spark 应 用 程序 作为 独立 的 集群 进程 运行 ， 由 主 程序 中 的 SparkContext 对 象 〈 称 为 驱动 
程序 ) 协调 。Spark 集群 部 署 组 件 图 5-1 所 示 。 
Worker Node 








Executor 









Bp | 


Cluster Manager 









wc | 


Worker Node 
Executor 

















图 5-1 Spark 集群 部 署 组 件 图 


其 中 各 个 术语 及 相关 术语 的 描述 如 下 。 

(1) Driver Program: 运行 Application 的 main 函数 并 新 建 SparkContext 实例 的 程序 ， 称 
为 驱动 程序 (Driver Program)。 通 常 可 以 使 用 SparkContext 代表 驱动 程序 。 

(2) Cluster Manager: 集群 管理 器 (Cluster Manager) 是 集群 资源 管理 的 外 部 服务 。Spark 
上 现在 主要 有 Standalone、YARN、Mesos 3 种 集群 资源 管理 器 。Spark 自 带 的 Standalone 模 
式 能 够 满足 绝 大 部 分 纯粹 的 Spark 计算 环境 中 对 集群 资源 管理 的 需求 ， 基 本 上 只 有 在 集群 中 
运行 多 套 计 算 框架 的 时 候 才 建议 考虑 YARN 和 Mesos。 
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(3) Worker Node: 集群 中 可 以 运行 Application 代码 的 工作 节点 (Worker Node)， 相 当 
于 Hadoop 的 Slave 节点 。 

(4) Executor: 在 Worker Node 上 为 Application 启动 的 一 个 工作 进程 ， 在 进程 中 负责 任 
务 (Task) 的 运行 ， 并 且 负 责 将 数据 存放 在 内 存 或 磁盘 上 ， 在 Executor 内 部 通过 多 线程 的 方 
式 〈 即 线程 池 ) 并 发 处 理应 用 程序 的 具体 任务 。 

每 个 Application 都 有 各 自 独 立 的 Executors， 因 此 应 用 程序 之 间 是 相互 隔离 的 。 

(5) Task: 任务 (Task) 是 指 被 Driver 送 到 Executor 上 的 工作 单元 。 通 常 ， 一 个 任务 会 
处 理 一 个 Partition 的 数据 ， 每 个 Partition 一 般 是 一 个 HDFS 的 Block 块 的 大 小 。 

(6) Application: 是 创建 了 SparkContext 实例 对 象 的 Spark 用 户 程 序 ， 包含 了 一 个 Driver 
program 和 集群 中 多 个 Worker 上 的 Executor。 

(7) Job: 和 Spark 的 action 对 应 ， 每 个 action， 如 count、savaAsTextFile 等 都 会 对 应 一 
个 Job 实例 ， 每 个 Job 会 拆 分 成 多 个 Stages， 一 个 Stage 中 包含 一 个 任务 集 (TaskSet) ， 任 务 
集中 的 各 个 任务 通过 一 定 的 调度 机 制 发 送 到 工作 单位 〈Executor) 上 并 行 执行 。 

Spark Standalone 集群 的 部 署 采用 典型 的 Master/Slave 架构 。 其 中 ，Master 节点 负责 整个 
集群 的 资源 管理 与 调度 ，Worker 节点 〈 也 可 以 称 Slave 节点 ) 在 Master 节点 的 调度 下 启动 
Executor， 负 责 执 行 具体 工作 《〈 包 括 应 用 程序 以 及 应 用 程序 提交 的 任务 ) 。 























5.1.2 ”Master 启动 的 源码 详解 


Spark 中 各 个 组 件 是 通过 脚本 来 启动 部 署 的 。 下 面 以 脚本 为 入 口 点 开始 分 析 Master 的 部 
署 。 每 个 组 件 对 应 提供 了 启动 的 脚本 ， 同 时 也 会 提供 停止 的 脚本 。 停 止 脚 本 比较 简单 ， 在 此 
仅 分 析 启 动 脚本 。 

1. Master 部 署 的 启动 脚本 解析 


首先 看 一 下 Master 的 启动 脚本 ./sbin/start-master.sh， 内 容 如 下 。 
# 在 脚本 的 执行 节点 启动 Master 组 件 


# 如 果 没 有 设置 环境 变量 SPARK_HOME， 会 根据 脚本 所 在 位 置 自动 设置 
if [ -z "${SPARK HOME}" ]; then 

export SPARK HOME="$ (cd "‘dirname "$0"*"/..; pwd)" 
下 


# 注 : 提取 的 类 名 必须 和 SparkSubmit 的 类 相 匹配 。 任 何 变化 都 需 在 类 中 进行 反映 


co ~awm 必 mw 


10. # Master 组 件 对 应 的 类 
11. CLASS="org.apache.spark.deploy.master.Master" 


2 

13. # 脚 本 的 帮助 信息 

14. 

LS EE LL Se = -help TI LD “se = Dl then 
Ds echo "Usage: ./sbin/start-master.sh [options]" 


证 属 Pattern="Usage:" 
18. pattern+="\1Using Spark's default 1og4j profile:" 
19. pattern+="\|Registered signal handlers for" 
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21. # 通过 脚本 spark-class 执行 指定 的 Master 类 ， 参 数 为 --help 

之 2> "S${SPARK HOME}"/bin/spark-class $CLASS --help 2>&1 | grep -v "$pattern™ 
1>&2 

23 OKLE 于 

24> £1 


26. ORIGINAL ARGS="$@" 


28. # 控 制 启动 Master 时 ， 是 否 同时 启动 Tachyon 的 Master 组件 
29. START TACHYON=false 


SE while (C0 "se" yy do 
32. case $1 in 


3 --with-tachyon) 

34. if [ ! -e "${SPARK HOME}"/tachyon/bin/tachyon ]; then 
3 echo "Error: --with-tachyon specified, but tachyon not found." 
36. exit -1 

ST fe 

38. START TACHYON=true 

< 局 局 

40. esac 

41. shift 

42. done 

43. 

44. . "${SPARK HOME}/sbin/spark-config.sh" 

45. 

46. . "${SPARK HOME}/bin/load-spark-env.sh" 

47. 

48. # 下 面 的 一 些 参数 对 应 的 默认 配置 属性 

49. if [ "$SPARK MASTER PORT" = "" ]; then 

50- SPARK MASTER PORT=7077 

SE 

52< 


53. // 用 于 MasterURL， 所 以 当 没有 设置 时 ， 默 认 使 用 hostname， 而 不 是 IP 地 址 
54. // 该 MasterURL 在 Worker 注册 或 应 用 程序 提交 时 使 用 

55. if [ "$SPARK MASTER IP" = "" ]; then 

56. SPARK MASTER IP=`hostname 

ry 


59. if [ "$SPARK MASTER WEBUI PORT" = "" ]; then 
60. SPARK MASTER WEBUI PORT=8080 
[5 


63 . # 通 过 启动 后 台 进 程 的 脚本 spark-daemon .sh 来 启动 Master 组 件 

64. "${SPARK HOME}/sbin"/spark-daemon.sh start $CLASS 1 \ 

65. —-ip S$SPARK MASTER IP --port $SPARK MASTER PORT --webui-port S$SPARK 
MASTER WEBUI PORT \ 

66. S$ORIGINAL ARGS 


67. 

68 . # 需 要 时 同时 启动 Tachyon， 此 时 Tachyon 是 编译 在 Spark 内 的 

69. if [ “SSTART TACHYON” == "true™ ]7 then 

0. "S${SPARK HOME}"/tachyon/bin/tachyon bootstrap-conf $SPARK MASTER IP 
71. "“${SPARK HOME}"/tachyon/bin/tachyon format -s 

12. "${SPARK HOME}"/tachyon/bin/tachyon-start.sh master 

a 


通过 脚本 的 简单 分 析 , 可 以 看 出 Master 组 件 是 以 后 台 守 护 进程 的 方式 启动 的 ， 对 应 的 后 
台 和 守护 进程 的 局 动 脚本 spark-daemon.sh， 在 后 台 守 护 进程 的 启动 脚本 spark-daemon.sh 内 部 ， 
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通过 脚本 spark-class 启动 一 个 指定 主 类 的 JVM 进程 ， 相 关 代 码 如 下 所 示 。 


1. case "$mode” in 

2. # 这 里 对 应 的 是 启动 一 个 Spark 类 

后 (class) 

4 nohup nice -n "$SPARK NICENESS" "${SPARK HOME}"/bin/spark-class $command 
"$@" >> "$log" 2>&1 < /dev/null & 
eves 站 


(submit) 
. nohup nice -n "$SPARK NICENESS" "${SPARK HOME}"/bin/spark-submit --class 
$command "S$@" >> "$log" 2>&1 < /dev/null & 
10. newpid="$!" 


| 
5 
7 # 这 里 对 应 提交 一 个 Spark 应 用 程序 
8 
9 


1¥e 

2 

35 (*) 

于 echo "unknown mode: $mode" 
15% exit 1 

16. 77 


通过 脚本 的 分 析 ， 可 以 知道 最 终 执 行 的 是 Master 类 (对 应 的 代码 为 前 面 的 
CLASS="org.apache.spark.deploy.master.Master" )， 对 应 的 入 口 点 是 Master 伴生 对 象 中 的 main 
方法 。 下 面 以 该 方法 作为 入 口 点 进一步 解析 Master 部 署 框 架 。 

部 署 Master 组 件 时 , 最 简单 的 方式 是 直接 启动 脚本 , 不 带 任 何 选 项 参数 , 命令 如 下 所 示 。 

1. ./sbin/start-master.sh 

如 需 设置 选项 参数 ， 可 以 查看 帮助 信息 ， 根 据 自己 的 需要 进行 设置 。 

2. Master 的 源码 解析 


首先 查看 Master 伴生 对 象 中 的 main 方法 。 
Master scala 的 源码 如 下 。 


def main (argStrings: Array[String]) { 

2 Utils.initDaemon (1og) 

3 val conf = new SparkConf 

4. // 构 建 参数 解析 的 实例 

val args = new MasterArguments (argStrings, conf) 

6 // 启 动 RPC 通信 环境 以 及 Master 的 RPC 通信 终端 

a val (rpcEnv, , _) = startRpcEnvAndEndpoint (args.host, args.port, 
args.webUiPort, conf) 

:加 rpcEnv.awaitTermination () 

9 } 


和 其 他 类 (如 SparkSubmit) 一 样 ，Master 类 的 入 口 点 处 也 包含 了 对 应 的 参数 类 
MasterArguments。MasterArguments 类 包括 Spark 属性 配置 相关 的 一 些 解 析 。 
MasterArguments.scala 的 源码 如 下 。 


private[master] class MasterArguments (args: Array[String], conf: 
SparkConf) extends Logging { 

var host = Utils.localHostName () 

var port = 7077 

var webUiPort = 8080 

Var propertiesFile: String = null 


on 心 w 
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// 读 取 启动 脚本 中 设置 的 环境 变量 

if (System.getenv ("SPARK MASTER IP") != null) { 
logWarning ("SPARK MASTER IP is deprecated, please use SPARK MASTER 
HOST”) 
host = System.getenv ("SPARK MASTER IP") 

} 


if (System.getenv("SPARK MASTER HOST") != null) { 
host = System.getenv ("SPARK MASTER HOST") 

} 

if (System.getenv("SPARK MASTER PORT") != null) { 
port = System.getenv ("SPARK MASTER PORT") .toInt 

} 

if (System.getenv("SPARK MASTER WEBUI PORT") != null) { 
webUiPort = System.getenv ("SPARK MASTER WEBUI PORT") .toInt 


} 
// 命 令 行 选项 参数 的 解析 


parse (args.toList) 


// 加 载 SparkConf 文件 ， 所 有 的 访问 必须 经 过 此 行 
propertiesFile = Utils.loadDefaultSparkProperties (conf, propertiesFile) 


if (conf.contains("spark.master.ui.port")) { 
webUiPort = conf.get ("spark.master.ui.port") .toInt 


MasterArguments 中 的 printUsageAndExit 方法 对 应 的 就 是 命令 行 中 的 帮助 信息 。 
MasterArguments.scala 的 源码 如 下 。 


FANAONDP 


83 
3 


05 
1 
和 
3 
14. 
dD 


private def printUsageAndExit (exitCode: Int) { 
//scalastyle:off println 
System.err.println( 
"Usage: Master [options]\n" + 
DN 
"Options:\n" + 
" -i HOST, --ip HOST Hostname to listen on (deprecated, please 
use --host or -h) \n" + 
" -h HOST, --host HOST Hostname to listen on\n" + 
" -p PORT, --port PORT Port to listen on (default: 7077)\n" + 
" -=--webui-port PORT Port for web UI (default: 8080)\n" + 
" —-properties-file FILE Path to a custom Spark properties file.\n" + 
yt Default is conf/spark-defaults.conf.") 
//scalastyle:on println 
System.exit (exitCode) 


} 


解析 完 Master 的 参数 后 ,调用 startRpcEnvAndEndpoin 方 法 启动 RPC 通 信 环 境 以 及 Master 
的 RPC 通信 终端 。 
Spark 2.1.1 版 本 的 Masterscala 的 startRpcEnvAndEndpoint 的 源码 如 下 。 


as 


/** 
* 启动 Master 并 返回 一 个 三 元 组 : 
六 (1) The Master RpcEnv 
于 (2) The web UI bound port 
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赂 受 束 (3) The REST server bound port, if any 

Ts */ 

:全 

9. def startRpcEnvAndEndpoint( 

30- host> Stringy 

3 port Lnts 

站 webUiPort: Int, 

3 conf: SparkConf): (RpcEnv, Int, Option[Int]) = { 

14. val securityMgr = new SecurityManager (conf) 

15. ”// 构 建 RPC 通信 环境 

16. val rpcEnv = RpcEnv .create (SYSTEM NAME, host, port, conf, securityMgr) 
17. ”// 构 建 RPC 通信 终端 ,实例 化 Master 

:党 val masterEndpoint = rpcEnv.setupEndpoint (ENDPOINT NAME, 

LE new Master (rpcEnv, rpcEnv.address, webUiPort, securityMgr, conf) 
20. 


21. // 向 Master 的 通信 终端 发 送 请 求 ， 获 取 绑 定 的 端口 号 
22. // 包 含 Master 的 Web UI 监听 端口 号 和 REST 的 监听 端口 号 


23< 

24. Val portsResponse = masterEndpoint .askWithRetry [BoundPortsResponse] 
(BoundPortsRequest) 

253 (rpcEnv, portsResponse.webUIPort, portsResponse.restPort) 

26: 1} 

> 


Spark 2.2.0 版 本 的 Masterscala 的 startRpcEnvAndEndpoint 的 源码 与 Spark 2.1.1 版 本 相 比 
具有 如 下 特点 :上 段 代 码 中 第 24 行 MasterEndpoint 的 askWithRetry 方法 调整 为 askSync 方法 。 


本 

本 val portsResponse = masterEndpoint.askSync[BoundPortsResponse] 
(BoundPortsRequest) 

Se 


startRpcEnvAndEndpoint 方法 中 定义 的 ENDPOINT_NAME 如 下 。 
Masterscala 的 源码 如 下 。 
Private [deploy] object Master extends Logging { 


val SYSTEM NAME = "sparkMaster" 
val ENDPOINT NAME = "Master" 


PAODP 


startRpcEnvAndEndpoint 方法 中 通过 masterEndpoint.askWithRetry[BoundPortsResponse] 
(BoundPortsRequesb 给 Master 自己 发 送 一 个 消息 BoundPortsRequest， 是 一 个 case object。 发 
送 消息 BoundPortsRequest 给 自己 ， 确 保 masterEndpoint 正常 启动 起 来 。 返 回 消息 的 类 型 是 
BoundPortsResponse， 是 一 个 case class。 

MasterMessages.scala 的 源码 如 下 。 





private[master] object MasterMessages { 


1 

过 过 

:了 case object BoundPortsRequest 

4 case class BoundPortsResponse(rpcEndpointPort: Int， webUIPort: Int, 
restPort: Option[Int]) 

5. } 

Master 收 到 消息 BoundPortsRequest， 发 送 返回 消息 BoundPortsResponse。 


Master scala 的 源码 如 下 。 


“hs 
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i override def receiveAndReply (context: RpcCallContext): PartialFunction 
[Any, Unit] = { 


3. case BoundPortsRequest => 
4. context.reply (BoundPortsResponse(address.port, webUi.boundPort, 
restServerBoundPort)) 


在 BoundPortsResponse 传 入 的 参数 restServerBoundPort 是 在 Master 的 onStart 方法 中 定 
义 的 。 
IMaster.scala 的 源码 如 下 。 


private var restServerBoundPort: Option [Int] = None 


override def onstart(): Unit = { 


restServerBoundPort = restServer.map( .start()) 


ww 


而 restServerBoundPort 是 通过 restServer 进行 map 操作 启动 赋值 .下 面 看 一 下 restServer。 
Master scala 的 源码 如 下 。 


i[E, private var restServer: Option[StandaloneRestServer] = None 

ee 

& 局 if (restServerEnabled) { 

4. val port = conf.getInt ("spark.master.rest.port", 6066) 

已 话 restServer = Some (new StandaloneRestServer (address.host, port, conf, 
self, masterUrl1)) 

6 } 

A 


其 中 调用 new0 函 数 创 建 一 个 StandaloneRestServer。StandaloneRestServer 服务 器 响应 请 
求 提交 的 [RestSubmissionClient]， 将 被 嵌入 到 standalone Master 中 ， 仅 用 于 集群 模式 。 服 务 
器 根据 不 同 的 情况 使 用 不 同 的 HITP 代码 进行 响应 。 

口 200 OK- 请 求 已 成 功 处 理 。 

口 400 错误 请 求 : 请 求 格式 错误 ， 未 成 功 验证 ， 或 意外 类 型 。 

口 468 未 知 协议 版 本 : 请 求 指定 了 此 服务 器 不 支持 的 协议 。 

口 500 内 部 服务 器 错误 : 服务 器 在 处 理 请 求 时 引发 内 部 异常 。 

服务 器 在 HITP 主体 中 总 包含 一 个 JSON 表示 的 [SubmitRestProtocolResponse]。 如 果 发 生 
错误 ， 服 务 器 将 包括 一 个 [ErrorResponse]。 如 果 构 造 了 这 个 错误 响应 内 部 失败 时 ， 响 应 将 由 
一 个 空 体 组 成 。 响 应 体 指示 内 部 服务 器 错误 。 

StandaloneRestServer.scala 的 源码 如 下 。 


二 private[deploy] class StandaloneRestServer!( 

这 host: String, 

从 requestedPort: Int, 

4. masterConf: SparkConf, 

5 masterEndpoint: RpcEndpointRef, 

6 masterUrl: String) 

渤 extends RestSubmissionServer(host, requestedPort, masterConf) { 


下 面 看 一 下 RestSubmissionClient 客户 端 。 客 户 端 提交 申请 [RestSubmissionServer]。 在 协 
议 版 本 V1 中 ，REST URL 以 表单 形式 出 现 http:/[hostportl/vl/submissions/[action]，[action] 


aa 
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可 以 是 create、kill 或 状态 中 的 其 中 一 种 。 每 种 请 求 类 型 都 表示 为 发 送 到 以 下 前 级 的 HTTP 
消息 : 

(1) submit - POST to /submissions/create 

(2) kill - POST /submissions/kill/[submissionId] 

(3) status - GET /submissions/status/[submissionId] 

在 (1) 情况 下 ， 参 数 以 JSON 字段 的 形式 发 布 到 HTTP 主体 中 。 否 则 ，URL 指定 按 客 
户 端的 预期 操作 。 由 于 该 协议 预计 将 在 Spark 版 本 中 保持 稳定 ， 因 此 现 有 字段 不 能 添加 或 删 
除 ， 但 可 以 添加 新 的 可 选 字 段 。 如 在 少见 的 事件 中 向 前 或 向 后 兼容 性 被 破坏 ，Spark 须 引 入 
一 个 新 的 协议 版 本 〈 如 V2)。 客 户 机 和 服务 器 必须 使 用 协议 的 同一 版 本 进行 通信 。 如 果 不 匹 
配 ， 服 务 器 将 用 它 支持 的 最 高 协议 版 本 进行 响应 。 此 客户 机 的 实现 可 以 用 指定 的 版 本 使 用 该 
信息 重 试 。 

RestSubmissionClient scala 的 源码 如 下 。 





3 private[spark] class RestSubmissionClient (master: String) extends 
Logging { 

2 import RestSubmissionClient. 

< private val supportedMasterPrefixes = Seq("spark://", "mesos://") 


Restful 把 一 切 都 看 成 是 资源 。 利 用 Restful API 可 以 对 Spark 进行 监控 。 程 序 运行 的 每 一 
个 步骤 、Task 的 计算 步骤 都 可 以 可 视 化 ， 对 Spark 的 运行 进行 详细 监控 。 

回 到 startRpcEnvAndEndpoint 方法 中 ， 新 创建 了 一 个 Master 实例 。Master 实例 化 时 会 对 
所 有 的 成 员 进 行 初始 化 ， 如 默认 的 Cores 个 数 等 。 

Master.scala 的 源码 如 下 。 


于 private[deploy] class Master( 

区 override val rpcEnv: RpcEnv, 

四 address: RpcAddress, 

站 二 webUiPort: Int, 

5 val securityMgr: SecurityManager, 

6 val conf: SparkConf) 

hs extends ThreadSafeRpcEndpoint with Logging with LeaderElectable { 

:ee 

名 // 缺 省 maxCores 时 默认 应 用 程序 没有 指定 (通过 Int .MaxValue) 

10. private val defaultCores = conf.getInt ("spark.deploy.defaultCores", 
Int.MaxValue) 


11. val reverseProxy = conf.getBoolean("spark.ui.reverseProxy", false) 
2 if (defaultCores < 1) { 

13 throw new SparkException("spark.deploy.defaultCores must be positive") 
了 由 

ee 

16. 


Master 继承 了 ThreadSafeRpcEndpoint 和 LeaderElectable， 其 中 继承 LeaderElectable 涉及 
Master 的 高 可 用 性 (High Availability，HA) 机 制 。 这 里 先 关注 ThreadSafeRpcEndpoint， 继 
承 该 类 后 ，Master 作为 一 个 RpcEndpoint， 实 例 化 后 首先 会 调用 onStart 方法 。 

Master scala 的 源码 如 下 。 


EE override def onStart () : Unit = { 
2 logInfo("Starting Spark master at " + masterUrl) 


“13a 
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“154: 


logInfo(s"Running Spark version ${org.apache.spark.SPARK VERSION}") 
// 构 建 一 个 Master 的 Web UI， 查看 向 Master 提交 的 应 用 程序 等 信息 
webUi = new MasterWebUI (this, webUiPort) 
webUi .bind() 
masterWebUiUr] = "http://" + masterPublicAddress + ":" + webUi .boundPort 
if (reverseProxy) { 
masterWebUiUTr1l = conf.get ("spark.ui.reverseProxyUrl", masterWebUiUr]) 
logInfo(s"Spark Master is acting as a reverse proxy. Master, Workers 
DG 
s"Applications UIs are available at SmasterWebUiUr1") 
} 
// 在 一 个 守护 线程 中 , 启动 调度 机 制 , 周期 性 检查 Worker 是 否 超时 , 当 Worker 节点 超时 后 ， 
// 会 修改 其 状态 或 从 Master 中 移 除 其 相关 的 操作 


checkForWorkerTimeOutTask = forwardMessageThread.scheduleAtFixedRate 
(new Runnable { 
override def run(): Unit = Utils.tryLogNonFatalError { 
self.send (CheckForWorkerTimeOut) 
} 
}, 0, WORKER TIMEOUT MS, TimeUnit .MILLISECONDS) 


// 默 认 情况 下 会 启动 Rest 服务 ， 可 以 通过 该 服务 向 Master 提交 各 种 请 求 
if (restServerEnabled) { 
val port = conf.getInt ("spark.master.rest.port", 6066) 
restServer = Some (new StandaloneRestServer (address.host, port, conf, 
self, masterUr]l1)) 
} 
restServerBoundPort = restServer.map(_.start()) 

// 度 量 (Metroics) 相关 的 操作 ， 用 于 监控 
masterMetricsSystem.registerSource (masterSource) 
masterMetricsSystem.start () 
applicationMetricsSystem.start () 

// 度 量 系统 启动 后 ， 将 主 程序 和 应 用 程序 度量 handler 处 理 程序 附加 到 Web UI 中 
masterMetricsSystem.getServletHandlers.foreach (webUi .attachHandler) 
applicationMetricsSystem.getServletHandlers.foreach (webUi. 
attachHandler) 

//Master HA 相关 的 操作 
val serializer = new JavaSerializer (conf) 
val (persistenceEngine , leaderElectionAgent ) = RECOVERY MODE match { 

Case "ZOOKEEPER" => 
logInfo("Persisting recovery state to ZooKeeper" 
val zkFactory = 
new ZooKeeperRecoveryModeFactory (conf, serializer) 
(zkFactory.createPersistenceEngine(), zkFactory. 
createLeaderElectionAgent (this)) 
Case "FILESYSTEM" => 
val fsFactory = 
new FileSystemRecoveryModeFactory (conf, serializer) 
(fsFactory.createPersistenceEngine(), fsFactory.createLeader-— 
ElectionAgent (this)) 
case "CUSTOM" => 
val clazz = Utils.classForName (conf.get ("spark.deploy. 
recoveryMode.factory")) 
val factory = clazz.getConstructor(classOf[SparkConf], classOf 
[Serializer]) 
.newInstance (conf, serializer) 
-asInstanceOf [StandaloneRecoveryModeFactory] 
(factory.createPersistenceEngine(), factory.createLeaderElectionAgent 
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(this)) 
S52 case => 
5 (new BlackHolePersistenceEngine(), new MonarchyLeaderAgent (this)) 
54. } 
D5 persistenceEngine = persistenceEngine 
56. leaderElectionAgent = leaderElectionAgent 
Ss } 








其 中 在 Master 的 onStart 方法 中 用 new0 函 数 创建 MasterWebUI， 启 动 一 个 webServer。 
Master scala 的 源码 如 下 。 








override def onstart(): Unit = { 


1 

Rs 

Sa webUi = new MasterWebUI (this, webUiPort) 

4 webUi .bind() 

5 masterWebUiUr] = "http://" + masterPublicAddress + ":" + webUi. 
boundPort 


如 MasterWebUI 的 spark.ui.killEnabled 设置 为 True, 可 以 通过 WebUI 页 面 把 Spark 的 进 
程 Kill 掉 。 
MasterWebUI.scala 的 源码 如 下 。 


:区 private [master] 

2. class MasterWebUI( 

Ee Val master: Master, 

4. requestedPort: Int) 

extends WebUI (master.securityMgr, master.securityMgr.getSSLOPtions 
("standalone"), 

6. requestedPort, master.conf, name = "MasterUI") with Logging { 

J val masterEndpointRef = master.self 

三 val killEnabled = master.conf.getBoolean("spark.ui.killEnabled", true) 

i 

10. initialize() 

11s 


12. /** 初 始 化 所 有 的 服务 器 组 件 */ 
13. def initialize() { 


Eh val masterPage = new MasterPage (this) 

5 attachPage (new ApplicationPage (this)) 

16. attachPage (masterPage) 

人 attachHandler (createStaticHandler (MasterWebUI .STATIC RESOURCE DIR, 
"/static")) 

9。 attachHandler (createRedirectHandler( 

93 "/app/kill", "/", masterPage.handleAppKillRequest, httpMethods = 

Set ("POST"))) 
20- attachHandler (createRedirectHandler( 
Zs "/driver/kill", "/", masterPage.handleDriverKillRequest, 


httpMethods = Set ("POST"))) 
2 } 
MasterWebUI 中 在 初始 化 时 用 new0O 函 数 创 建 MasterPage， 在 MasterPage 中 通过 代码 去 
写 Web 页 面 。 
MasterPage.scala 的 源码 如 下 。 





> private[ui] class MasterPage (parent: MasterWebUI) extends WebUIPage ("") { 
op Re 

< override def renderJson(request: HttpServletRequest): JValue = { 

a JsonProtocol .writeMasterState (getMasterState) 


-Se 
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5. 1 
有 
了 计 Val content = 
8 <div class="row-fluid"> 
9 <div class="span12"> 
0 <ul class="unstyled"> 
ee <li><strong>URL:</strong> {state.uri}</1li> 
2 { 
13> state.restUri.map { uri => 
14. <1i> 
于 <strong>REST URL:</strong> {uri} 
16. <span class="rest-uri"> (cluster mode)</span> 
Te </1i> 
318- } .getOrElse { Seq.empty } 
9 } 
20% <li><strong>Alive Workers:</strong> {aliveWorkers.length}</1i> 
之 下 < <li><strong>Cores in use:</strong> {aliveWorkers.map 
(_-.cores) .sum} Total, 
2 {aliveWorkers.map(_.coresUsed) .sum} Used</1i> 
3 <li><strong>Memory in use:</strong> 
A {Utils.megabytesToString (aliveWorkers.map( .memory) .sum) } 
Total, 
od {Utils.megabytesToString (aliveWorkers.map( .memoryUsed) 
-Sum) } Used</1i> 
4 <li><strong>Applications:</strong> 
之 {state.activeApps.length} <a href="#running-app">Running</a>, 
这 二 {state.completedApps.length} <a href="#completed-app"> 
Completed</a> </1i> 
之 95 <li><strong>Drivers:</strong> 
S08 {state.activeDrivers.length} Running, 
<] 轩 {state.completedDrivers.length} Completed </1i> 
32. <li><strong>Status:</strong> {state.status}</1i> 
3 </ul> 
34. </div> 
三 语 </div> 
0 
本 到 MasterWebUI.scala 的 initialize() 方 法 ， 其 中 调用 了 attachPage 方法 ， 在 WebUI 中 增 
加 Web 页 面 。 





心 w IN 


Ts 
98- 
本 


130。 
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WebUIscala 的 源码 如 下 。 


def attachPage (page: WebUIPage) { 
val pagePath = "/" + page.prefix 
val renderHandler = createServletHandler (pagePath, 
(request: HttpServletRequest) => page.render (request), 
securityManager, conf, basePath) 
val renderJsonHandler = createServletHandler (pagePath.stripSuffix 
("/m) + "/json", 
(request: HttpServletRequest) => page.renderJson(request), 
securityManager, conf, basePath) 
attachHandler (renderHandler) 
attachHandler (renderJsonHandler) 
val handlers = pageToHandlers.getOrElseUpdate(page, ArrayBuffer 
[ServletContextHandler] ()) 
handlers += renderHandler 


} 














在 WebUI 的 bind 方法 中 启用 了 JettyServer。 


“a 
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WebUIscala 的 bind 的 源码 如 下 。 


: 属 def bind() { 
之 assert (!serverInfo.isDefined，s"Rttempted to bind $className more than 
once!") 
EW 
“中 Val host = Option (Conf.getenV ("SPARK LOCAL IP") ) .getOrElse 
ai 
5 serverInfo = Some (startJettyServer (host, port, sslOptions, handlers, 


conf, name)) 


6 logInfo(s"Bound $className to $host, and started at S$webUrl") 
5 Each 

8. case e: Exception => 

二 logError(s"Failed to bind $className", e) 

10. System.exit (1) 

1 } 

25>} 








JettyUtils.scala 的 startJettyServer 尝试 将 Jetty 服务 器 绑 定 到 所 提供 的 主机 名 、 端 口 。 
startJettyServer 的 源码 如 下 。 


1. def startJettyServer( 








2 hostName: String, 

全 Port: Inty 

4. sslOptions: SSLOptions, 

5 handlers: Seq[ServletContextHandler], 

\ conf: SparkConf, 

ye serverName: String = ""): ServerInfo = { 


5.1.3 Master HA 双 机 切换 


Spark 生产 环境 下 一 般 采 用 ZooKeeper 作 HA， 且 建议 为 3 台 Master，ZooKeeper 会 自动 
化 管理 Masters 的 切换 。 

采用 ZooKeeper 作 HA 时 ，ZooKeeper 会 保存 整个 Spark 集群 运行 时 的 元 数据 ， 包 括 
Workers、 Drivers、Applications、Executors。 

ZooKeeper 遇 到 当前 Active 级 别 的 Master 出 现 故 障 时 会 从 Standby Masters 中 选取 出 一 台 
作为 Active Master, 但 是 要 注意 , 被 选举 后 到 成 为 真正 的 Active Master 之 前 需要 从 ZooKeeper 
中 获取 集群 当前 运行 状态 的 元 数据 信息 并 进行 恢复 。 

在 Master 切换 的 过 程 中 ， 所 有 已 经 在 运行 的 程序 皆 正 常 运 行 。 因 为 Spark Application 在 
运行 前 就 已 经 通过 Cluster Manager 获得 了 计算 资源 ， 所 以 在 运行 时 ，Job 本 身 的 调度 和 处 理 
和 Master 是 没有 任何 关系 的 。 

在 Master 的 切换 过 程 中 唯一 的 影响 是 不 能 提交 新 的 Job: 一 方面 不 能 够 提交 新 的 应 用 程 
序 给 集群 ， 因 为 只 有 Active Master 才能 接收 新 的 程序 提交 请 求 ， 另 一 方面 ， 已 经 运行 的 程序 
中 也 不 能 因为 Action 操作 触发 新 的 Job 提交 请 求 。 

ZooKeeper 下 Master HA 的 基本 流程 如 图 5-2 所 示 。 

ZooKeeper 下 Master HA 的 基本 流程 如 下 。 

(1) 使 用 ZooKeeperPersistenceEngine 读 取 集群 的 状态 数据 ， 包 括 Drivers、Applications、 
Workers、Executors 等 信息 。 
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图 5-2 ZooKeeper 下 Master HA 的 基本 流程 


(2) 判断 元 数据 信息 是 否 有 空 的 内 容 。 

(3) 把 通过 ZooKeeper 持久 化 引擎 获得 了 Drivers、Applications、Workers、Executors 等 
信息 ， 重 新 注册 到 Master 的 内 存 中 缓存 起 来 。 

(4) 验证 获得 的 信息 和 当前 正在 运行 的 集群 状态 的 一 致 性 。 

(5) 将 Application 和 Workers 的 状态 标识 为 Unknown， 然 后 向 Application 中 的 Driver 
以 及 Workers 发 送 现在 是 Leader 的 Standby 模式 的 Master 的 地 址 信息 。 

(6) 当 Driver 和 Workers 收 到 新 的 Master 的 地 址 信息 后 会 响应 该 信息 。 

(7) Master 接收 到 来 自 Drivers 和 Workers 响应 的 信息 后 会 使 用 一 个 关键 的 方法 : 
completeRecovery() 来 对 没有 响应 的 Applications (Drivers)、Workers (Executors) 进行 处 理 。 处 
理 完毕 后 ，Master 的 State 会 变 成 RecoveryState.ALIVE， 从 而 开始 对 外 提供 服务 。 

(8) 此 时 Master 使 用 自己 的 Schedule 方法 对 正在 等 待 的 Application 和 Drivers 进行 资源 





Master HA 的 4 大 方式 分 别 是 ZOOKEEPER、FILESYSTEM、CUSTOM、NONE。 
需要 说 明 的 是 : 


(a) ZOOKEEPER 是 自动 管理 Master。 

(Cb) FILESYSTEM 的 方式 在 Master 出 现 故障 后 需要 手动 重新 启动 机 器 ， 机 器 启动 后 会 
立即 成 为 Active 级 别 的 Master 来 对 外 提供 服务 〈 接 收 应 用 程序 提交 的 请 求 、 ne Job 运 
行 的 请 求 )。 

(c) CUSTOM 的 方式 允许 用 户 自 定义 Master HA 的 实现 ， 这 对 高 级 用 户 特 别 有 用 。 

(d) NONE, 这 是 默认 情况 ，Spatk 集群 中 就 采用 这 种 方式 ， 该 方式 不 会 持久 化 集群 的 数 


据 ，Master 启动 后 立即 管理 集群 。 
Masterscala 的 HA 的 源码 如 下 。 
Ju override def onStart() : Unit = { 
2 
3. val serializer = new JavaSerializer (conf) 
- 喇 val (persistenceEngine , leaderElectionAgent ) = RECOVERY MODE match { 
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二 有 Case "ZOOKEEPER" => 

1 logInfo ("Persisting recovery state to ZooKeeper") 

ya Val zkFactory = 

Be new ZooKeeperRecoveryModeFactory (conf, serializer) 

9 (zkFactory.createPersistenceEngine(), zkFactory.createLeader-— 
ElectionAgent (this)) 

10. Case "FILESYSTEM" => 

11, val fsFactory = 

2 new FileSystemRecoveryModeFactory(conf，serializer) 

3 (fsFactory.createPersistenceEngine(), fsFactory. 
createLeaderElectionAgent (this)) 

14. case "CUSTOM"” => 

I val clazz = Utils.classForName (conf.get ("spark.deploy. 
recoveryMode.factory")) 

16. val factory = clazz.getConstructor (classOf[SparkConf], classOf 
[Serializer]) 

.newInstance (conf, serializer) 

18. .asInstanceOf [StandaloneRecoveryModeFactory] 

19. (factory.createPersistenceEngine(), factory.createLeaderElectionAgent 
(this)) 

2 case => 

2 (new BlackHolePersistenceEngine(), new MonarchyLeaderAgent (this) ) 

区 2 } 

人 3 persistenceEngine = persistenceEngine 

24. leaderElectionAgent = leaderElectionAgent 

2 

| 


Spark 默认 的 HA 方式 是 NONE。 
1. Private val RECOVERY MODE = conf.get ("spark.deploy.recoveryMode", "NONE") 


如 使 用 ZOOKEEPER 的 HA 方式 ，ZooKeeperRecoveryModeFactory.scala 的 源码 如 下 。 


各 Private [master] class ZooKeeperRecoveryModeFactory(conf: SparkConf, 
serializer: Serializer) 


2 extends StandaloneRecoveryModeFactory(conf, serializer) { 

3 

a def createPersistenceEngine(): PersistenceEngine = { 

SE new ZooKeeperPersistenceEngine (conf, serializer) 

6 . 

Ye 

| 坊 def createLeaderElectionAgent (master: LeaderElectable): 
LeaderElectionAgent = { 

局 new ZooKeeperLeaderElectionAgent (master, conf) 

cl 

SR 


通过 调用 zkFactory.createPersistenceEngine() 用 new0 函数 创建 一 个 ZooKeeper- 
PersistenceEngine。 
ZooKeeperPersistenceEngine.scala 的 源码 如 下 。 


= 让 Private [master] class ZooKeeperPersistenceEngine (conf: SparkConf, val 
serializer: Serializer) 

extends PersistenceEngine 

Ss with Logging { 

4. 

3 private val WORKING DIR = conf.get("spark.deploy.zookeeper.dir", 


“/spark”) + /master status" 
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private val zk: CuratorFramework = SparkCuratorUtil.newClient (conf) 


SparkCuratorUtil.mkdir (zk, WORKING DIR) 


override def persist (name: String, obj: Object): Unit = { 
serializeIntoFile (WORKING DIR + "/" + name, obj) 
J 


override def unpersist (name: String): Unit = { 
zk.delete() .forPath (WORKING DIR + "/" + name) 
} 


override def read[T: ClassTag] (prefix: String): Seq[T] = { 
zk.getChildren.forPath (WORKING DIR) .asScala 
-filter( .startsWith (prefix)).flatMap (deserializeFromFile[T]) 
} 


override def close() { 
zk.close() 


} 


private def serializeIntoFile(path: String, value: AnyRef) { 
val serialized = serializer.newInstance() .serialize (value) 
Val bytes = new Arrayl[Byte] (serialized.remaining()) 
serialized.get (bytes) 
zk.create() .withMode (CreateMode .PERSISTENT) .forPath (path, bytes) 
} 


private def deserializeFromFile[T] (filename: String) (implicit m: 
ClassTag[T]): Option[T] = { 
val fileData = zk.getData() .forPath (WORKING DIR + "/" + filename) 
try { 
Some (serializer.newInstance () .deserialize[T] (ByteBuffer.wrap 
(fileData) ) ) 
yecatch { 
case e: Exception => 
logWarning ("Exception while reading persisted file, deleting", e) 
zk.delete() .forPath (WORKING DIR + "/" + filename) 
None 
} 
} 


PersistenceEngine 中 有 至 关 重 要 的 方法 persist 来 实现 数据 持久 化 ,readPersistedData 来 恢 
复 集群 中 的 元 数据 。 
PersistenceEngine.scala 的 源码 如 下 。 


a 


def persist (name: String, obj: Object): Unit 


final def readPersistedData( 
rpcEnv: RpcEnv): (Seq[ApplicationInfo], Seq[lDriverInfo], Seq 
[WorkerInfo]) = { 
rpcEnv.deserialize { () => 
(read [ApplicationInfo] ("app "), read[DriverInfo] ("driver "), read 
[WorkerInfo] ("worker ")) 
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下 面 来 看 createdLeaderElectionAgent 方法 。 在 createdLeaderElectionAgent 方法 中 调 
new0 函 数 创建 ZooKeeperLeaderElectionAgent 实例 。 
StandaloneRecoveryModeFactory.scala 的 源码 如 下 。 








了 def createLeaderElectionAgent (master: LeaderElectable) : 
LeaderElectionAgent = { 

把 new ZooKeeperLeaderElectionAgent (master, conf) 

3. } 

4 } 


ZooKeeperLeaderElectionAgent 的 源码 如 下 。 


:本 Private [master] class ZooKeeperLeaderElectionAgent (val masterInstance: 
LeaderElectable, 
这 conf: SparkConf) extends LeaderLatchListener with LeaderElectionAgent 
with Logging { 
后 
4. Val WORKING DIR = conf.get ("spark.deploy.zookeeper.dir", "/spark") + 


"/leader election" 
5 
6. private var zk: CuratorFramework = _ 
Ts private var leaderLatch: LeaderLatch = _ 
8 private var status = LeadershipStatus.NOT LEADER 
9 


L105 start () 


hi 

2 private def start() { 

上 汪 logInfo("Starting ZooKeeper LeaderElection agent") 
站 汪 zk = SparkCuratorUtil.newClient (conf) 
a leaderLatch = new LeaderLatch (zk, WORKING DIR) 
16 . leaderLatch.addListener (this) 

下 leaderLatch.start() 

Ue 

全 

20e override def stop() { 

人 leaderLatch.close() 

从 2 zk.close() 

2 

24. 

25. override def isLeader() { 

2 synchronized { 

2 // 可 以 取得 领导 权 

28 . if (!leaderLatch.hasLeadership) { 
2 return 

30. } 

Ei 

325 logInfo("We have gained leadership") 
号 号 updateLeadershipStatus (true) 

三 } 

5 所 

36. 

交合 override def notLeader() { 

SR synchronized { 

398 // 可 以 取得 领导 权 

40. if (leaderLatch.hasLeadership) { 
41. return 

人 2 

3 


a Me 
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44. logInfo("We have lost leadership") 

< updateLeadershipStatus (false) 

46. 人 

47. } 

48 . 

49. private def updateLeadershipStatus (isLeader: Boolean) { 
SI if (isLeader && status == LeadershipStatus .NOT LEADER) { 
SE status = LeadershipStatus .LEADER 

52> masterInstance.electedLeader () 

3 } else if (!isLeader && status == LeadershipStatus.LEADER) { 
54. status = LeadershipStatus.NOT LEADER 

5 masterInstance .revokedLeadership () 

与 6 } 

0 | 

58: 

59. private object LeadershipStatus extends Enumeration { 

60. type LeadershipStatus = Value 

6 val LEADER, NOT LEADER = Value 

62: 小 

63=°0)} 


FILESYSTEM 和 NONE 的 方式 采用 MonarchyLeaderAgent 的 方式 来 完成 Leader 的 选 
举 ， 其 实现 是 直接 把 传 入 的 Master 作为 Leader。 
LeaderElectionAgent.scala 的 源码 如 下 。 


private[spark] class MonarchyLeaderAgent (val masterInstance: 
LeaderElectable) 

全 extends LeaderElectionAgent { 

35 masterIinstance.electedLeader () 

2 


FileSystemRecoveryModeFactory.scala 的 源码 如 下 。 


1. private[master] class FileSystemRecoveryModeFactory(conf: SparkConf, 
serializer: Serializer) 


2 extends StandaloneRecoveryModeFactory (conf, serializer) with Logging { 
3 

4. Val RECOVERY DIR = conf.get ("spark.deploy.recoveryDirectory", "") 

5. 

6 def createPersistenceEngine(): PersistenceEngine = { 

ye logInfo("Persisting recovery state to directory: " + RECOVERY DIR) 
2 new FileSystemPersistenceEngine (RECOVERY DIR, serializer) 

网 | 

10. 


Eh def createLeaderElectionAgent (master: LeaderElectable): 
LeaderElectionAgent = { 

本 2 new MonarchyLeaderAgent (master) 

:1 


如 果 WorkerState 状态 为 UNKNOWN (Worker 不 响应 ) ， 就 把 它 删 除 ， 如 果 以 集群 方式 
运行 ，driver 失败 后 可 以 启动 ， 最 后 把 状态 变 回 ALIVE， 注 意 ， 这 里 要 加 入 --supervise 
这 个 参数 。 











Master.scala 的 源码 如 下 。 
二。 private def completeRecovery() { 
2 // 使 用 短 同步 周期 确保 “only-once” 恢 复 一 次 语义 


“i 
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if (state != RecoveryState.RECOVERING) { return } 
state = RecoveryState .COMPLETING RECOVERY 


// 杀 掉 不 响应 消息 的 workers 和 apps 

workers.filter (_.state — WorkerState .UNKNOWN) .foreach (removeWorker) 
apps.filter( .state == ApplicationState .UNKNOWN) .foreach 
(finishApplication) 


// 重 新 调度 drivers， 其 未 被 任何 workers 声明 
drivers.filter( .worker.isEmpty) .foreach { d => 
logWarning(s"Driver ${d.id} was not found after master recovery") 
if (d.desc.supervise) { 
logWarning(s"Re-launching ${d.id}") 
relaunchDriver (d) 
} else { 
removeDriver (d.id, DriverState.ERROR, None) 
logWarning (s"Did not re-launch ${d.id} because it was not supervised") 


} 
| 


5.1.4 _ Master 的 注册 机 制 和 状态 管理 解密 


1. Master 对 其 他 组 件 注册 的 处 理 


Master 接收 注册 的 对 象 主要 是 Driver、Application、Worker; Executor 不 会 注册 给 Master， 
Executor 是 注册 给 Driver 中 的 SchedulerBackend 的 。 

Worker 是 在 启动 后 主动 向 Master 注册 的 ， 所 以 如 果 在 生产 环境 下 加 入 新 的 Worker 到 正 
在 运行 的 Spark 集群 上 ， 此 时 不 需要 重新 启动 Spark 集群 就 能 够 使 用 新 加 入 的 Worker， 以 提 
升 处 理 能 力 。 假 如 在 生产 环境 中 的 集群 中 有 500 台 机 器 ， 可 能 又 新 加 入 100 台 机 器 ， 这 时 不 
需要 重新 启动 整个 集群 ， 就 可 以 将 100 台新 机 器 加 入 到 集群 。 

Worker 的 源码 如 下 。 


FFPeoo~awm 必 wm 


Po: 


private[deploy] class Worker( 


override val rpcEnv: RpcEnv, 
webUiPort: Int, 

cores: Int, 

memory: Int, 

masterRpcAddresses: Arrayl[RpcAddress], 
endpointName: String, 

workDirPath: String = null, 

val conf: SparkConf, 

val securityMgr: SecurityManager) 


extends ThreadSafeRpcEndpoint with Logging { 


Worker 是 一 个 消息 循环 体 , 继承 自 ThreadSafeRpcEndpoint, 可 以 收 消息 , 也 可 以 发 消息 。 
Worker 的 onStart 方法 如 下 。 


AMAONP 


override def onstart() { 


workerWebUiUrl = s"http://$publicAddress:${webUi.boundPort}" 
registerWithMaster () 


“4 
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Worker 的 onStart 方法 中 调用 了 registerWithMaster()。 





private def registerWithMaster () { 
registrationRetryTimer match { 
Case None => 
registered = false 
registerMasterFutures = tryRegisterAllMasters () 


ANMAODP 


registerWithMaster 方法 中 调用 了 tryRegisterAllMasters， 问 所 有 的 Master 进行 注册 。 
Spark 2.1.1 版 本 的 Worker.scala 的 源码 如 下 。 


于 private def tryRegisterAllMasters(): Array[JFuture[ ]] = { 
忆 masterRpcAddresses.map { masterAddress => 
三 全 TegisterMasterThreadPool .submit (new Runnable { 
和 override def run(): Unit = { 
二 EY 
6 logInfo("Connecting to master " + masterAddress + "...") 
7 val masterEndpoint = rpcEnv.setupEndpointRef (masterAddress, 
Master .ENDPOINT NAME) 
8 . registerWithMaster (masterEndpoint) 
9 ycateh 训 
0. case ie: InterruptedException => //Cancelled 
本 case NonFatal (e) => logWarning(s"Failed to connect to master 


$masterAddress", e) 


2 

3 

14. }) 
Ds } 
6 | 


Spark 2.2.0 版 本 的 Worker.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代 码 中 第 8 
行 registerWithMaster(masterEndpoint) 方 法 调整 为 sendRegisterMessageToMaster(masterEndpoint)。 





sendRegisterMessageToMaster (masterEndpoint) 


tryRegisterAllMasters 方法 中 ， 由 于 实际 运行 时 有 很 多 Master， 因 此 使 用 线程 池 的 线程 进 
行 提交 , 然后 获取 masterEndpoint。 masterEndpoint 是 一 个 RpcEndpointRef, 通过 registerWithMaster 
(masterEndpoinb) 进 行 注册 。 

Spark 2.1.1 版 本 的 Worker.scala 的 registerWithMaster 的 源码 如 下 。 


private def registerWithMaster (masterEndpoint: RpcEndpointRef): Unit = { 
masterEndpoint.ask [RegisterWorkerResponse] (RegisterWorker( 
workerId, host, port, self, cores, memory, workerWebUiUr]l)) 
.onComplete { 
// 这 是 一 个 非常 快 的 动作 ， 所 以 可 以 用 "ThreadUtils.sameThread" 
case Success (msg) => 
Utils.tryLogNonFatalError { 
handleRegisterResponse (msg) 
} 
case Failure(e) => 
logError(s"Cannot register with master: ${masterEndpoint 
-address}", e) 
yb System.exit (1) 
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了 3 } (ThreadUtils.sameThread) 
14. } 


Spark 2.1.1 版 本 的 registerWithMaster(masterEndpoint) 方 法 调整 为 Spark 2.2.0 版 本 的 
sendRegisterMessageToMaster(masterEndpoint) 。 sendRegisterMessageToMaster 方法 仅 将 
RegisterWorker 消息 发 送 给 Master 消息 循环 体 。sendRegisterMessageToMaster 方法 内 部 不 作 
其 他 处 理 。 


1. private def sendRegisterMessageToMaster (masterEndpoint: RpcEndpointRef): 
Unit = { 
masterEndpoint.send (RegisterWorker( 
workerId, 
host, 
port,y 
self, 
cores, 
memory, 
< workerWebUiUr]l, 
OF masterEndpoint .address)) 
Ls 


} 


POWoOJaAAwDN 


registerWithMaster 方法 中 的 masterEndpoint.ask[RegisterWorkerResponse] 传 进去 的 是 
RegisterWorker。RegisterWorker 是 一 个 case class, 包括 id、host、 port、 worker、 cores、memory 
等 信息 ， 这 里 Worker 是 自己 的 引用 RpcEndpointRef，Master 通过 Ref 通 worker 通信 。 

Spark 2.1.1 版 本 的 RegisterWorker.scala 的 源码 如 下 。 


case class RegisterWorker!( 
Ld Stringy 
host: String, 
Port: Tnkfr 
worker: RpcEndpointRef, 
cores: Int, 
memory: Int, 
workerWebUiUrl: String) 
extends DeployMessage { 
0. Utils.checkHost (host, "Required hostname") 
SR assert (port > 0) 
二 2 让 
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Spark 2.2.0 版 本 的 RegisterWorker.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具 有 如 下 特点 : 上 
段 代 码 中 第 8 行 之 后 新 增加 masterAddress 的 成 员 变 量 : Master 的 地 址 ， 用 于 Worker 节点 连 
接 Master 节点 。 
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u 
本 
8 
加 
[= 有 
bp 
[oy 
[0 
u 
器 
名 
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忆 
辐 
u 
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Worker 通过 registerWithMaster 向 Master 发 送 了 RegisterWorker 消息 ，Master 收 到 
RegisterWorker 请 求 后 ， 进 行 相应 的 处 理 。 
Spark 2.1.1 版 本 的 Master.scala 的 receiveAndReply 的 源码 如 下 。 


2 override def receiveAndReply (context: RpcCallContext): 
PartialFunction[Any, Unit] = { 

2 case RegisterWorker!( 

网 id, workerHost, workerPort, workerRef, cores, memory, 


“Ss 
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workerWebUiUrl1) => 


SS logInfo("Registering worker %s:%d with sq cores, %s RAM".format( 

5S workerHost, workerPort, cores, Utils.megabytesToString (memory))) 

6- if (state == RecoveryState.SsTANDBY) { 

a context .reply (MasterInSstandby) 

:十 } else if (idToWorker.contains(id)) { 

he context .reply (RegisterWorkerFailed("Duplicate worker ID")) 

10 } else { 

11, val worker = new WorkerInfo (id， workerHost, workerPort, cores, 

memory, 

2 workerRef, workerWebUiUr1) 

I if (registerWorker (worker)) { 

La persistenceEngine.addWorker (worker) 

DE context.reply (RegisteredWorker (self, masterWebUiUr]1)) 

16. Schedule () 

汪汪 } else { 

18% val workerAddress = worker.endpoint.address 

19. logWarning ("Worker registration failed. Attempted to re-register 
worker at same "+ 

20. "address: " + workerAddress) 

2 context .reply (RegisterWorkerFailed("Attempted to re-register 
worker at same address: " 

2 + workerAddress)) 

区 } 

24. } 


Spark 2.2.0 版 本 的 Master.scala 的 receiveAndReply 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 





口 上 段 代 码 中 第 1 行 ，RegisterWorker 消息 的 模式 匹配 从 receiveAndReply 方法 中 调整 
到 receive 方法 。 因 为 Worker 癌 Master 提交 了 RegisterWorker 消息 ,无 须 同 步 等 待 Master 
的 答复 。 

口 上 段 代 码 中 第 3 行 RegisterWorker 的 传 入 参数 新 增加 了 masterAddress。 

口 上 段 代 码 中 第 9 行 context.reply 方法 调整 为 workerRef send 方法 。 

口 上 段 代码 中 第 15 行 contextreply 方法 调整 为 workerRef send 方法 , 以 及 RegisteredWorker 

中 新 增 了 一 个 参数 masterAddress。 

override def receive: PartialFunction[Any, Unit] = { 


case RegisterWorker( 
id, workerHost, workerPort, workerRef, cores, memory, workerWebUiUr], 
masterAddress) 


ODP 


加 Dam 


RegisterWorker 中 ，Master 接收 到 Worker 的 注册 请 求 后 ， 首 先 判 断 当 前 的 Master 是 否 
是 Standby 的 模式 ， 如 果 是 ， 就 不 处 理 ; Master 的 idToWorker 包含 了 所 有 已 经 注册 的 Worker 
的 信息 ,然后 会 判断 当前 Master 的 内 存 数 据 结 构 idToWorker 中 是 否 已 经 有 该 Worker 的 注册 ， 
如 果 有 ， 此 时 不 会 重复 注册 ; 其 中 idToWorker 是 一 个 HashMap，Key 是 String 代表 Worker 
的 字符 描述 ，Value 是 WorkerInfo。 


二 private val idToWorker = new HashMap [String，WorkerInfol] 
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WorkerInfo 包括 id、host、port 、cores、memory、endpoint 等 内 容 。 


oAAODp 


private[spark] class WorkerInfo( 
val ‘1d: Stringy 

val host: String, 

Val port: Tntr 

val cores: Int, 

val memory: Int, 

val endpoint: RpcEndpointRef, 
val webUiAddress: String) 


extends Serializable { 


Master 如 果 决 定 接收 注册 的 Worker， 首 先 会 创建 WorkerInfo 对 象 来 保存 注册 的 Worker 
的 信息 , 然后 调用 registerWorker 执行 具体 的 注册 的 过 程 ， 如 果 Worker 的 状态 是 DEAD 的 状 
态 ， 则 直接 过 滤 掉 。 对 于 UNKNOWN 的 内 容 ， 调 用 removeWorker 进行 清理 (包括 清理 该 
Worker 下 的 Executors 和 Drivers) 。 其 中 ，UNKNOWN 的 情况 : Master 进行 切换 时 ， 先 对 
Worker 发 UNKNOWN 消息 ， 只 有 当 Master 收 到 Worker 正确 的 回复 消息 ， 才 将 状态 标识 为 


正常 。 


registerWorker 的 源码 如 下 。 


| 


WoJau 
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Private def registerWorker (worker: WorkerInfo) : Boolean = { 
// 在 同一 节点 上 可 能 有 一 个 或 多 个 指向 挂 掉 的 workers 节点 的 引用 《〈 不 同 ID) ， 须 删除 它们 
workers.filter { w => 
(w.host == worker.host && w.port == worker.port) && (w.state == 
Workerstate .DEAD) 
}.foreach { w => 
workers -= W 


} 


val workerAddress = worker.endpoint.address 
if (addressToWorker.contains (workerAddress)) { 
val oldWorker = addressToWorker (workerAddress) 
if (oldWorker.state == WorkerState.UNKNOWN) { 
/ /未知 状态 的 worker 意味 着 在 恢复 过 程 中 worker 被 重新 启动 。 旧 的 worker 节点 
// 挂 掉 ， 须 删 掉 旧 节点 ， 接 收 新 worker 节点 
removeWorker (oldWorker) 
} else { 
logInfo("Attempted to re-register worker at same address: " + 
workerAddress) 
return false 
上 
} 


workers += worker 
idToWorker (worker.id) = worker 
addressToWorker (workerAddress) = worker 
if (reverseProxy) { 
webUi .addProxyTargets (worker.id, worker.webUiAddress) 


true 


在 registerWorker 方法 中 ，Worker 注册 完成 后 ， 把 注册 的 Worker 加 入 到 Master 的 内 存 
数据 结构 中 。 


= 67s 
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Val workers = new HashSet [WorkerInfol] 
private val idToWorker = new HashMap[String, WorkerInfo] 
private val addressToWorker = new HashMap[RpcAddress, WorkerInfo] 


workers += worker 
idToWorker (worker.id) = worker 
addressToWorker (workerAddress) = worker 


cawm 必 ww 


回 到 Master.scala 的 receiveAndReply 方 法 , Worker 注 册 完 成 后 , 调用 persistenceEngine addWorker 
(worker)，PersistenceEngine 是 持久 化 引擎 ， 在 Zookeeper 下 就 是 Zookeeper 的 持久 化 引擎， 
把 注册 的 数据 进行 持久 化 。 

PersistenceEngine.scala 的 addWorker 方法 如 下 。 





于 final def addWorker (worker: WorkerInfo) : Unit = { 
persist ("worker " + worker.id, worker) 
< } 


ZooKeeperPersistenceEngine 是 PersistenceEngine 的 一 个 具体 实现 子 类 ， 其 persist 方法 
如 下 。 


1s Private [master] class ZooKeeperPersistenceEngine (conf: SparkConf, val 
serializer: Serializer) 

extends PersistenceEngine 

override def persist (name: String, obj: Object): Unit = { 
serializeIntoFile (WORKING DIR + "/" + name, obj) 


private def serializeIntoFile(path: String, value: AnyRef) { 

val serialized = serializer.newInstance() .serialize (value) 

Os val bytes = new Array [Byte] (serialized.remaining()) 
serialized.get (bytes) 

:| zk.create() .withMode (CreateMode .PERSISTENT) .forPath (path, bytes) 
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可 到 Master.scala 的 receiveAndReply 方法 ,注册 的 Worker 数据 持久 化 后 ,进行 schedule()。 
至 此 ，Worker 的 注册 完成 。 

同样 ，Driver 的 注册 过 程 : Driver 提交 给 Master 进行 注册 ，Master 会 将 Driver 的 信息 放 
入 内 存 缓存 中 ， 加 入 等 待 调度 的 队列 ， 通 过 持久 化 引擎 〈 如 ZooKeeper) 把 注册 信息 持久 化 ， 
然后 进行 Schedule。 

Application 的 注册 过 程 : Application 提交 给 Master 进行 注册 ，Driver 启动 后 会 执行 
SparkContext 的 初始 化 ， 进 而 导致 StandaloneSchedulerBackend 的 产生 ， 其 内 部 有 
StandaloneAppClient。 StandaloneAppClient 内 部 有 ClientEndpoint 。 ClientEndpoint 来 发 送 
RegisterApplication 信息 给 Master。Master 会 将 Application 的 信息 放 入 内 存 缓存 中 ， 把 
Application 加 入 等 待 调度 的 Application 队列 ， 通 过 持久 化 引擎 (如 ZooKeeper) 把 注册 信息 
持久 化 ， 然 后 进行 Schedule。 


2. Master 对 Driver 和 Executor 状 态 变化 的 处 理 


1) 对 Driver 状态 变化 的 处 理 
如 果 Driver 的 各 个 状态 是 DriverState ERROR | DriverState FINISHED | DriverState.KILLED | 
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DriverState FAILED， 就 将 其 清理 掉 。 其 他 情况 则 报 异 常 。 


用 override def receive: PartialFunction[Any, Unit] = { 

2 

3 case DriverStateChanged (driverId, state, exception) => 

4. state match { 

Ss case DriverState.ERROR | DriverState.FINISHED | DriverState.KILLED 
| DriverState .FRILED => 

Ge removeDriver (driverId, state, exception) 

js case _ => 

8 throw new Exception (s"Received unexpected state update for driver 


$driverId: $state") 
9. | 


removeDriver 清理 掉 Driver 后 ， 再 次 调用 schedule 方法 ，removeDriver 的 源码 如 下 。 


3 private def removeDriver( 

2 driverId: String, 

E 局 finalState: DriverState， 

网 exception: Option[Exception]) { 

三 drivers.find(d => d.id == driverId) match { 

6= case Some (driver) => 

六 3 logInfo(s"Removing driver: $driverId") 

8. drivers -= driver 

if (completedDrivers.size >= RETAINED DRIVERS) { 
LO val toRemove = math.max (RETAINED DRIVERS / 10, 1) 
die completedDrivers .trimStart (toRemove) 

了 2 } 

ds completedDrivers += driver 

ae persistenceEngine.removeDriver (driver) 

局 driver.state = finalState 

16. driver.exception = exception 

他 本 driver.worker.foreach(w => w.removeDriver (driver)) 
18- schedule() 

4195 case None => 

205 logWarning(s"Asked to remove unknown driver: $driverId") 
2 } 

习 2 } 

2 


2) 对 Executor 状态 变化 的 处 理 
ExecutorStateChanged 的 源码 如 下 。 


override def receive: PartialFunction[Any, Unit] = { 


case ExecutorStateChanged (appId, execId, state, message, exitStatus) => 

val execOption = idToApp.get (appId) .flatMap(app => app.executors. 
get (execId) ) 

三 execOption match { 

6= case Some (exec) => 

val appInfo = idToApp (appId) 

8 val oldState = exec.state 

9 exec.state = state 


Eb if (state == ExecutorState -RUNNING) { 

2 assert (oldState == ExecutorState .LAUNCHING, 

3% s"executor $execId state transfer from $oldState to RUNNING 
is illegal") 

14. appInfo.resetRetryCount () 


-De 
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了 5 } 

16. 

7 exec.application.driver.send (ExecutorUpdated (execId, state, 

message, exitSstatus, false)) 

18. 

19. if (ExecutorState.isFinished(state)) { 

20. // 从 worker 和 app 中 删 掉 executor 

2 logInfo(s"Removing executor S${exec.fullId} because it is 
$state") 

2 // 如 果 应 用 程序 已 经 完成 ， 保 存 其 状态 及 在 UI 上 正确 显示 其 信息 

六 3 if (!appInfo.isFinished) { 

24. appInfo.removeExecutor (exec) 

5 } 

26. exec .worker.removeExecutor (exec) 

2 

4 : 光 val normalExit = exitStatus == Some (0) 

29. // 只 重 试 一 定 次 数 ， 这 样 就 不 会 进入 无 限 循环 。 重要 提示 : 这 个 代码 路 径 不 是 通过 
// 测 试 执行 的 ， 所 以 改变 if 条 件 时 必须 小 心 

30. if (!'normalExit 

31。 && appInfo.incrementRetryCount () >= MAX EXECUTOR RETRIES 

号 2 && MAX EXECUTOR RETRIES >= 0) { //< 0 disables this 

application-killing path 

332 Val execs = appInfo.executors.values 

人 所 if (!execs-exists( .state == ExecutorState.RUNNING) ) 1{ 

5 logError (s"APP1ication ${appInfo.desc.name} with ID 

${appInfo.id} failed " + 

36. s"${appInfo.retryCount} times; removing it") 

SI removeApplication (appInfo, ApplicationState.FAILED) 

38. } 

39 } 

40. } 

A schedule() 

42. case None => 

43. logWarning(s"Got status update for unknown executor S$appId/ 

SexecId") 

44. } 

Executor 挂 掉 时 系统 会 尝试 一 定 次 数 的 重启 (最 多 重启 10 次 ) 。 

ds private val MAX EXECUTOR RETRIES = conf.getInt ("spark.deploy. 


maxExecutorRetries", 10) 


5.2 ”Worker 启动 原理 和 源码 详解 


本 节 讲 解 Worker 启动 原理 和 源码 。 对 于 Worker 的 部 署 启动 ， 我 们 以 Worker 的 脚本 为 
入 口 点 进行 分 析 。 


5.2.1 Worker 启动 的 原理 流程 





Spark 中 各 个 组 件 是 通过 脚本 启动 部 署 的 。Worker 的 部 署 以 脚本 为 入 口 点 开始 分 析 。 每 
个 组 件 对 应 提供 了 启动 的 脚本 ， 同 时 也 会 提供 停止 的 脚本 ， 停 止 脚本 比较 简单 ， 在 此 仅 分 析 
启动 的 脚本 。 
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部 署 Worker 组 件 时 ， 最 简单 的 方式 是 通过 配置 Spark 部 署 目录 下 的 confyslaves 文件 ， 然 
后 以 批量 的 方式 启动 集群 中 在 该 文件 中 列 出 的 全 部 节点 上 的 Worker 实例 。 启 动 组 件 的 命令 如 
下 所 示 : 


1. ./sbin/start-slaves.sh 


或 者 动态 地 在 某 个 新 增 节点 上 〔 注 意 是 新 增 节点 ， 如 果 之 前 已 经 部 署 过， 可 以 参考 后 面 
对 启动 多 个 实例 的 进一步 分 析 ) 启动 一 个 Worker 实例 , 此 时 可 以 在 该 新 增 的 节点 上 执行 如 下 
启动 命令 。 

1. ./sbin/start-slave.sh MasterURL 


其 中 ， 参 数 MasterURL 表示 当前 集群 中 Master 的 监 昕 地址， 启动 后 Worker 会 通过 该 地 址 动 
态 注册 到 Master 组 件 ， 实 现 为 集群 动态 添加 Worker 节点 的 目的 。 

下 面 是 Worker 部 署 脚 本 的 解析 。 

部 署 脚本 根据 单个 节点 以 及 多 个 节点 的 Worker 部 署 ， 对 应 有 两 个 脚本 : start-slave.sh 和 
start-slaves.sh。 其 中 ，start-slave.sh 负责 在 脚本 执行 节点 启动 一 个 Worker 组 件 。start-slaves.sh 
脚本 则 会 读 取 配 置 的 conf/slaves 文件 ， 逐 个 启动 集群 中 各 个 Slave 节点 上 的 Worker 组 件 。 

1. 首先 分 析 脚本 start-slaves.sh 

靶 本 start-slaves.sh 提供 了 批量 启动 集群 中 各 个 Slave 节点 上 的 Worker 组 件 的 方法 , 即 可 
以 在 配置 好 Slave 节点 〈 即 配置 好 conf/slaves 文件 ) 后 ， 通 过 该 脚本 一 次 性 全 部 启动 集群 中 
的 Worker 组 件 。 

却 本 的 代码 如 下 所 示 。 

# 在 根据 conf/slaves 文件 指定 的 每 个 节点 上 启动 一 个 Slave 实例 ， 即 Worker 组 件 











2 #Starts a slave instance on each machine specified in the conf/slaves file. 
3 

4. if [ -z "${SPARK HOME}" ]; then 

5 export SPARK HOME="$ (cd "‘dirname "$0"°"/..; pwd)" 

6 Ep 

7 

8 # 根 据 配 置信 息 设置 是 否 需 要 同时 启动 Tachyon 的 slave 实例 


9. START TACHYON=false 


i. While (( "Se" ))7 de 
12. case $1 in 


了 3 --with-tachyon) 

于 二 if [ ! -e "${SPARK HOME}/sbin"/../tachyon/bin/tachyon ]; then 
2 echo "Error: --with-tachyon specified, but tachyon not found." 
证 exit -1 

加 于 讲 

6. START TACHYON=true 

9 人 

20. esac 

2 shiEt 

22. done 

3 


24. . "${SPARK HOME}/sbin/spark-config.sh" 
25. . "${SPARK HOME}/bin/load-spark-env.sh" 


27. # Find the port number for the master 


“ns 


上 篇 ”内 核 解密 








. if [ "$SPARK MASTER PORT" = "" ]; then 


SPARK MASTER PORT=7077 
ET 
- # 这 里 获取 Master 的 IP 信息 。 需 要 注意 的 是 ， 如 果 当 前 SPARK MASTER IP 环境 变量 


- # 没 有 配置 ， 会 通过 hostname 命令 来 获取 ， 这 时 如 果 不 在 Master 组 件 所 在 节点 启动 本 
- # 脚 本 ，Master 的 IP 设置 就 不 一 臻 了 ， 为 避免 此 类 错误 ， 建 议 在 Master 组 件 所 在 的 节 
- # 点 上 启动 该 脚本 

RARKIDMRSTTRSRURP hn 


SPARK MASTER _IP="” "hostname " 


Es 
- ## 通过 slaves .sh 脚本 启动 Tachyon 的 Slave 实例 
. if [ "$START TACHYON" == "true" ]; then 


"S${SPARK HOME}/sbin/slaves.sh" cd "${SPARK HOME}" \; "S${SPARK HOME}/ 
sbin"/../tachyon/bin/tachyon bootstrap-conf "$SPARK MASTER IP" 

# set -t so we can call sudo 

SPARK SSH OPTS="-o StrictHostKeyChecking=no -t" "S${SPARK HOME}/sbin/ 
slaves.sh" cd "${SPARK HOME}" \; "S${SPARK HOME}/tachyon/bin/tachyon- 
start.sh" worker SudoMount \; sleep 1 


. # 通 过 slaves . sh 脚本 启动 Worker 实例 ， 这 里 会 调用 Worker 启动 的 另 一 个 脚本 start- 


#slave.sh 


. # Launch the slaves 
. "S${SPARK HOME}/sbin/slaves.sh" cd "${SPARK HOME}" \; "${SPARK HOME}/sbin 


/start-slave.sh" "spark://$SPARK MASTER IP:$SPARK MASTER PORT" 


， 脚 本 slaves.sh 通过 ssh 协议 在 指定 的 各 个 Slave 节点 上 执行 各 种 命令 。 


sh 启动 的 start-slave.sh 命令 中 ， 可 以 看 到 它 的 参数 是 "spark://SSPARK _MASTER_ 
IP:$SPARK_ MASTER_ PORT"， 即 启动 slave 节点 上 的 Worker 进程 时 ,使 用 的 Master URL 的 
值 是 通过 两 个 环境 变量 (SPARK_MASTER IP 和 SPARK_MASTER PORT) 拼接 而 成 的 。 


2. 脚本 start-slave.sh 分 析 


从 前 面 start-slaves.sh 脚本 的 分 析 中 可 以 看 到 ， 最 终 是 在 各 个 Slave 节点 上 执行 
start-slave.sh 脚本 来 部 署 Worker 组 件 。 对 应 地 ， 就 可 以 通过 该 脚本 ， 动 态 地 为 集群 添加 新 的 
Worker 组 件 。 

脚本 的 代码 如 下 所 示 : 


oawmnm 必 wm 


if [ -z "${SPARK HOME}" ]; then 
export SPARK HOME="$ (cd "‘dirname "$0"°"/..; pwd)" 
LE 


# 注 : 提取 的 类 名 必须 和 sparksubmit 的 类 相 匹 配 ， 任 何 变化 都 需 在 类 中 反映 


# Worker 组 件 对 应 的 类 
CLASS="org .apache.spark.deploy.worker.Worker™" 


. # 脚 本 的 用 法 ， 其 中 master 参数 是 必 选 的 ，Worker 需要 与 集群 的 Master 通信 
. # 这 里 的 master 对 应 Master URL 信息 
s FE NL S¥ =1E 2 MCD "Se = »==help J DID ”SG = #=h bean 


echo "Usage: ./sbin/start-slave.sh [options] <master>" 
pattern="Usage:" 

pattern+="\1Using Spark's default 1og4j profile:" 
pattern+="\|Registered signal handlers for" 


第 5 章 ”Spa 水 集群 启动 原理 和 源码 详解 








18 . 

了 9 "${SPARK HOME}"/bin/spark-class $CLASS --help 2>&1 | grep -V "$pattern™ 
1>&2 

20. exit 1 

Zl Ei 

22-。 

23. . "${SPARK HOME}/sbin/spark-config.sh" 

24. 

25. . "${SPARK HOME}/bin/load-spark-env.sh" 

26. 

27. # 第 一 个 参数 应 该 是 master， 先 保存 它 ， 因 为 我 们 可 能 需要 在 它 和 其 他 参数 之 问 插入 参数 

2 

29. MASTER=$1 

30. shift 

3 

32. # Worker 的 Web UI 的 端口 号 设置 

3 

34. if [ "S$SPARK WORKER WEBUI PORT" = "" ]; then 

Ss SPARK WORKER WEBUI PORT=8081 

SE 

3 

38. # 在 节点 上 启动 指定 序号 的 Worker 实例 

3 


# 
40. # 快 速 启动 Worker 的 本 地 功能 


41. function start instance { 


42 . # 指 定 的 Worker 实例 的 序号 ， 一 个 节点 上 可 以 部 署 多 个 Worker 组 件 ， 对 应 有 多 个 实例 
43. WORKER NUM=$1 


44. shift 

45. 

46. if [ "$SPARK WORKER PORT" = "" ]; then 

47. PORT FLAG= 

48. PORT NUM= 

49. else 

SO PORT FLAG="--port" 

Si PORT NUM=$ (( $SPARK WORKER PORT + S$WORKER NUM - 1 )) 
本 

EEE WEBUI PORT=$(( $SPARK WORKER WEBUI PORT + S$WORKER NUM - 1 )) 
54. 


55. # 和 Master 组 件 一 样 ，Worker 组 件 也 是 使 用 启动 守护 进程 的 spark-daemon. sh 脚本 来 启动 
# 一 个 Worker 实例 的 


56. 

Sie "${SPARK HOME}/sbin"/spark-daemon.sh start $CLASS S$WORKER NUM \ 
58. —-webui-port "S$WEBUI PORT" $PORT FLAG S$PORT NUM $MASTER "S$@" 
S59 

60. 


61 . # 一 个 节点 上 部 署 几 个 Worker 组 件 是 由 SPARK_WORKER _INSTANCES 环境 变量 控制 # 的 ， 默 
# 认 情况 下 只 部 署 一 个 实例 ，start_ instance 方法 的 第 一 个 参数 为 实例 的 序号 

62. if [ "$SPARK WORKER INSTANCES" = "" ]; then 

63. start instance 1 "$@" 

64. else 

有 for ((i=0; i<$SPARK WORKER INSTANCES; i++)); do 

66. start instance S({ T+ SI) “Se 

67= done 

(2 


手动 启动 Worker 实例 时 ， 如 果 需 要 在 一 个 节点 上 部 署 多 个 Worker 组 件 ， 则 需要 配置 
SPARK_ WORKER INSTANCES 环境 变量 ， 否 则 多 次 启动 脚本 部 署 Worker 组 件 时 会 报错 ， 


“3 


上 篇 ”内 核 解密 








其 原因 在 于 spark-daemon.sh NT 这 里 给 出 关键 代码 的 简单 分 析 。 
首先 ， 脚 本 中 带 了 实例 是 否 已 经 运行 的 判断 ， 代 码 如 下 所 示 。 





run command() { 
mode="$1" 
shift 


mkdir -p "$SPARK PID DIR" 


4£ [ =£ "Spid"” 1]; then 
TARGET ID="$ (cat "S$pid")" 
if [[ $(ps -p "$TARGET ID" -o comm=) =~ "java" ]]; then 
echo "$command running as process $TARGET ID. Stop it first." 


I 
这 
3 
4 
5 
6. 
7. # 检 查 记录 对 应 实例 的 PID 的 文件 ， 如 果 对 应 进程 已 经 运行 ， 则 会 报错 
8 
9 
10 
3 


2 exit 1 
L333 让 主 
14. 正业 


其 中 ， 记 录 对 应 实例 的 PID 的 文件 相关 的 代码 如 下 所 示 。 


# 这 是 PID 文件 所 在 的 目录 ， 如 果 没 有 设置 ， 默 认为 /tmp 
# 如 果 使 用 了 默认 目录 ， 可 能 会 出 现 停止 组 件 失败 的 信息 
# 原 因 在 于 该 /tmp 下 的 文件 可 能 会 被 系统 自动 删除 
if [ "S$SPARK PID DIR" = "" ]; then 

SPARK PID DIR=/tmp 
3 


# 这 是 指定 实例 编号 对 应 的 pid 文件 的 路 径 

# 其 中 $instance 代表 实例 编号 ， 因 此 如 果 编 号 相同 ， 对 应 的 就 是 同一 个 文件 

0. pid="$SPARK PID DIR/spark-$SPARK IDENT STRING-$command-$instance.pid" 
从 上 面 的 分 析 可 以 看 出 ， 如 果 不 是 通过 设置 SPARK WORKER INSTANCES, 然后 一 次 

性 启动 多 个 Worker 实例 , 而 是 手动 一 个 个 地 启动 , 对 应 的 在 脚本 中 每 次 启动 时 的 实例 编号 都 

是 1， 在 后 台 守 护 进程 的 spark-daemon.sh 脚本 中 生成 的 pid 就 是 同一 个 文件 。 因 此 ， 第 二 次 

启动 时 ，pid 文件 已 经 存在 ， 此 时 就 会 报错 (对 应 停止 时 也 是 通过 读 取 pid 文件 获取 进程 ID 

的 ， 因 此 自动 停止 多 个 实例 ， 也 需要 设置 SPARK_WORKER _INSTANCES)。 


Fo amwmcwN 


5.2.2 ”Worker 启动 的 源码 详解 


首先 查看 Worker 伴生 对 象 中 的 main 方法 ， 代 码 如 下 。 


private[deploy] object Worker extends Logging { 
val SYSTEM NAME = "sparkWorker" 
val ENDPOINT NAME = "Worker™ 


def main (argStrings: RARrray[String]) { 
Utils.initDaemon (10g) 
Val conf = new SparkConf 
// 构 建 解析 参数 的 实例 
val args = new WorkerArguments (argStrings, conf) 
0. ”// 启 动 RPC 通信 环境 以 及 Worker 的 RPC 通信 终端 
于 val rpcEnv = startRpcEnvAndEndpoint (args.host, args.port, args. 
webUiPort, args.cores, 
¥ args.memory, args.masters, args.workDir, conf = conf) 


PFADoco ~awm 必 wp 
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二 LTPcEnv.awaitTermination () 
14. } 


可 以 看 到 ，Worker 伴生 对 象 中 的 main 方法 、 格 式 和 Master 基本 一 致 。 通 过 参数 的 类 型 
WorkerArguments 来 解析 命令 行 参数 。 具 体 的 代码 解析 可 以 参考 Master 节点 部 署 时 的 
MasterArguments 的 代码 解析 。 

另外 ，MasterArguments 中 的 printUsageAndExit 方法 ， 对 应 的 就 是 命令 行 中 的 帮助 信息 。 

解析 完 Worker 的 参数 后 ， 调 用 startRpcEnvAndEndpoint 方法 启动 RPC 通信 环境 以 及 
Worker 的 RPC 通信 终端 。 该 方法 的 代码 解析 可 以 参考 Master 节点 部 署 时 使 用 的 同名 方法 的 


代码 解析 。 





最 终 会 实例 化 一 个 Worker 对 象 。Worker 也 继承 ThreadSafeRpcEndpoint， 对 应 的 也 是 一 
个 RPC 的 通信 终端 ， 实 例 化 该 对 象 后 会 调用 onStart 方法 ， 该 方法 的 代码 如 下 所 示 。 
Worker.scala 的 源码 如 下 。 


加 oamwm 必 wm 


ppPppPpPPPPPp 
WoOANON POO. 


DDN 
an 心 wN 口 


override def onStart() { 
// 刚 启动 时 Worker 肯定 是 未 注册 的 状态 
assert (!registered) 
logInfo("Starting Spark worker %s:%d with %d cores, %s RAM".format( 
host, port, cores, Utils.megabytesToString (memory))) 
logInfo(s"Running Spark version ${org.apache.spark.SPARK VERSION}") 
logInfo("Spark home: " + sparkHome) 
// 构 建 工作 目录 
createWorkDir() 
// 启 动 Shuffle 服务 
shuffleService.startIfEnabled() 
// 启 动 一 个 Web UI 
webUi = new WorkerWebUI (this, workDir, webUiPort) 
webUi .bind() 


workerWebUiUrl = s"http://$publicAddress:${webUi.boundPort}" 
// 每 个 Slave 节点 上 启动 Worker 组 件 时 ， 都 需要 向 集群 中 的 Master 注册 


registerWithMaster () 


metricsSystem.registerSource (workerSource) 
metricsSystem.start () 

// 度 量 系 统 启动 后 ， 将 Worker 度量 的 Servlet 处 理 程序 附加 到 Web 用 户 界面 
metricsSystem.getServletHandlers.foreach (webUi .attachHandler) 


} 


其 中 ，createWorkDir() 方 法 对 应 构建 了 该 Worker 节点 上 的 工作 目录 ， 后 续 在 该 节点 上 执 
行 的 Application 相关 信息 都 会 存放 在 该 目录 下 。 
Workerscala 的 createWorkDir 的 源码 如 下 。 


Private def createWorkDir() { 
workDir = Option (workDirPath) .map (new File( )) .getOrElse (new File 
(sparkHome, "work") ) 
try { 
// 这 偶尔 会 失败 ， 不 知道 原因 ... !workDir.exists() && !workDir.mkdirs() 
// 因 此 ， 尝 试 创建 并 检查 目录 是 否 创 建 
workDir.mkdirs() 
if ( !workDir.exists() || !workDir.isDirectory) { 
logError ("Failed to create work directory " + workDir) 


hs 


上 篇 ”内 核 解密 








:全 System.exit (1) 

10> x 

a assert (workDir.isDirectory) 

ee Featch 

13。 case e: Exception => 

14. logError ("Failed to create work directory " + workDir, e) 
:上 二 System.exit (1) 

16. 1 

| 


可 以 看 到 , 如 果 workDirPath 没有 设置 , 默认 使 用 的 是 sparkHome 目录 下 的 work 子 目录 。 
对 应 的 workDirPath 在 Worker 实例 化 时 传 入 ， 反 推 代码 可 以 查 到 该 变量 在 WorkerArguments 
中 设置 。 相 关 代码 有 两 处 : 一 处 在 WorkerArguments 的 主 构造 体 中 ， 代 码 如 下 所 示 。 
WorkerArguments.scala 的 源码 如 下 。 





A if (System.getenv ("SPARK WORKER DIR") != null) { 
2 workDir = System.getenv ("SPARK WORKER DIR") 
< } 


即 workDirPath 由 环境 变量 SPARK_WORKER _DIR 设置 。 

另外 一 处 在 命令 行 选 项 解析 时 设置 ， 代 码 如 下 所 示 。 
WorkerArguments.scala 的 源码 如 下 。 

1. private def parse(args: List[String]): Unit = args match { 


3 case ("--work-dir" | "-d") :: value :: tail => 

4. workDir = value 

3 parse (tail) 

即 workDirPath 由 启动 Worker 实例 时 传 入 的 可 选项 --work-dir 设置 。 属 性 配置 : 通常 由 
命令 可 选项 来 动态 设置 启动 时 的 配置 属性 ， 此 时 配置 的 优先 级 高 于 默认 的 属性 文件 以 及 环境 
变量 中 设置 的 属性 。 

启动 Worker 后 一 个 关键 的 步骤 就 是 注册 到 Master， 对 应 的 方法 registerWithMasterO 的 代 
码 如 下 所 示 。 

Workerscala 的 源码 如 下 。 


1 private def registerWithMaster() { 

这 

3. registerMasterFutures = tryRegisterAllMasters () 
4 


继续 查看 tryRegisterAllIMasters 方法 ， 代 码 如 下 所 示 。 
Spark 2.1.1 版 本 的 Worker.scala 的 源码 如 下 。 


3 private def tryRegisterAllMasters(): Array[JFuture[ ]] = { 
2 

世 registerWithMaster (masterEndpoint) 

人 

Ds 


Spark 2.2.0 版 本 的 Workerscala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代 码 
中 第 3 行 registerWithMaster 方法 调整 为 sendRegisterMessageToMaster 方法 。 
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private def tryRegisterAllMasters(): Array[JFuture[ ]] = { 


其 中 ，registerWithMaster(masterEndpoint) 向 特定 Master 的 RPC 通信 终端 发 送 消息 


RegisterWorker。 
Worker 接收 到 反馈 消息 后 ， 进 一 步调 用 handleRegisterResponse 方法 进行 处 理 。 对 应 的 
处 理 代码 如 下 所 示 。 
Worker.scala 的 源码 如 下 。 
2 private def handleRegisterResponse(msg: RegisterWorkerResponse): 
Unit = synchronized { 
2 msg match { 
SE // 成 功 注册 该 Worker 节点 ， 设 置 registered， 修 改 当 前 的 Master 
4. case RegisteredWorker (masterRef，masterWebUiUTr1) => 
Dis logInfo("Successfully registered with master " + masterRef 
.address.toSparkURL) 
5 registered = true 
changeMaster (masterRef, masterWebUiUr]1) 
8. ”// 启 动 周期 性 心跳 发 送 调度 器 ， 在 Worker 生命 周期 中 定期 向 Worker 发 送 自己 的 心跳 信息 
9 forwordMessageScheduler.scheduleAtFixedRate (new Runnable { 
De override def run(): Unit = Utils.tryLogNonFatalError { 
Ep 四 self.send(SendHeartbeat) 
主要 } 
13s }, 0, HEARTBEAT MILLIS, TimeUnit .MILLISECONDS) 
14. // 启 动工 作 目 录 的 定期 清理 调度 器 ， 默 认 情 况 下 ， 该 配置 的 属性 为 False， 需 要 手动 设置 ， 对 
// 应 属性 名 为 spark.worker.cleanup.enabled 
下 9 if (CLEANUP ENABLED) { 
6- logInfo( 
:区 汪 s"Worker cleanup enabled; old application directories will be 
deleted in: S$workDir") 
BE forwordMessageScheduler.scheduleAtFixedRate (new Runnable { 
9 override def run(): Unit = Utils.tryLogNonFatalError { 
20. self.send (WorkDirCleanup) 
过 } 
2 }, CLEANUP_ INTERVAL MILLIS, CLEANUP INTERVAL MILLIS, 
TimeUnit .MILLISECONDS) 
3 } 
24. 
i Val execs = executors.values.map { e => 
26. new ExecutorDescription(e.applId, e.execlId, e.cores, e.state) 
2 } 
和 和 masterRef.send (WorkerLatestState (workerId, execs.toList, 
drivers.keys.toSeq)) 
29. // 注 册 失败 ， 则 退出 
30. case RegisterWorkerFailed (message) => 
Se if (!registered) { 
S32 logError ("Worker registration failed: " + message) 
335 System.exit (1) 
34. ’ 
35. // 注 册 的 Master 处 于 Standby 状态 
36- case MasterInStandqdby => 
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3 //Ignore- Master not yet ready. 
39- i 


分 析 到 这 一 步 ， 已 经 明确 了 注册 以 及 对 注册 的 反馈 信息 的 处 理 细 节 。 下 面 进一步 分 析 注 
册 重 试 定时 器 的 相关 处 理 。 注 册 重 试 定时 器 会 定期 间 Worker 本 身 发 送 ReregisterWithMaster 
消息 ， 因 此 可 以 在 receive 方法 中 查看 该 消息 的 处 理 ， 具 体 代码 如 下 所 示 。 





I override def receive: PartialFunction[Any, Unit] = synchronized { 
2 

局 case ReregisterWithMaster => 

4. reregisterWithMaster () 

ee 


5.3 ”ExecutorBackend 启动 原理 和 源码 详解 


ExecutorBackend 是 Executor 向 集群 发 送 更 新 消息 的 一 个 可 揪 拔 的 接口 。ExecutorBackend 拥 
有 不 同 的 实现 。Standalone 模式 下 ExecutorBackend 的 默认 实现 是 CoarseGrainedExecutorBackend; 
在 Local 模式 下 ，ExecutorBackend 的 默认 实现 是 LocalBackend。 在 Mesos 调度 模式 下 ， 
ExecutorBackend 的 默认 实现 是 MesosExecutorBackend。 本 节 主 要 探索 Standalone 模式 下 的 
ExecutorBackend， 通 过 源码 深入 理解 ExecutorBackend 接口 设计 的 精髓 。 


5.3.1 ExecutorBackend 接口 与 Executor 的 关系 


本 节 将 详细 分 析 Standalone 模式 下 ExecutorBackend 和 Executor 的 关系 。 在 
StandaloneSchedulerBackend 中 会 实例 化 一 个 StandaloneAppClient。StandaloneAppClient 中 携带 了 
command 信息 ，command 信息 中 指定 了 要 启动 的 ExecutorBackend 的 实现 类 ，Standalone 模式 下 ， 
该 ExecutorBackend 的 实现 类 是 org.apache.spark.executor.CoarseGrainedExecutorBackend 类 。 

StandaloneSchedulerBackend.scala 的 start 方法 中 构建 了 一 个 Command 对 象 , 该 对 象 的 第 
一 个 参数 是 mainClass， 即 进程 的 主 类 。 该 类 在 Standalone 模式 下 为 org.apache.spark.executor. 
CoarseGrainedExecutorBackend。 分 别 将 sparkJavaopts、javaOpts、command、appUiAddress、 
coresPerExecutor、appDes 传 入 StandaloneAppClient 构造 函数 。StandaloneAppClient 将 会 向 
Master 发 送 RegisterApplication 注册 请 求 ，Master 受理 后 通过 launchExecutor 方法 在 Worker 节点 
启动 一 个 ExecutorRunner 对 象 ， 该 对 象 用 于 管理 一 个 Executor 进程 。 在 ExecutorRunner 中 将 通 
过 CommandUftil 构建 一 个 ProcessBuilder， 调 用 ProcessBuilder 的 start 方法 将 会 以 进程 的 方式 启 
动 org.apache.spark.executorCoarseGrainedExecutorBackend 。 在 CoarseGrainedExecotorBackend 的 
onStart 方法 中 ， 将 会 向 Driver 端 发 送 RegisterExecutor(executorId，self，hostPort，cores， 
extractLogUrls) 消 息 请 求 注册 , 完成 注册 后 将 立即 返回 一 个 RegisteredExecutor(executorAddress. 
host) 消 息 ，CoarseGraiendExecutorBackend 收 到 该 消息 ， 马 上 实例 化 出 一 个 Executor。 源 码 如 
下 所 示 。 

CoarseGrainedExecutorBackend scala 的 源码 如 下 。 


四 本 override def receive: PartialFunction[Any, Unit] = { 


= 
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case RegisteredExecutor => 

加 logInfo("Successfully registered with driver") 

EE 

executor = new Executor (executorId, hostname, env, userClassPath, 
isLocal = false) 


Be cach 

7 case NonFatal (e) => 

8. exitExecutor (1, "Unable to create executor due to " + e.getMessage, e) 
gs 


从 这 里 可 以 看 出 ，CoarseGrainedExecutorBackend 比 Executor 先 实 例 化 。CoarseGrained- 
ExecutorBackend 负责 与 集群 通信 ， 而 Executor 则 专注 于 任务 的 处 理 ， 它 们 是 一 对 一 的 关系 ， 
在 集群 中 各 司 其 职 。 

每 个 Worker 节点 上 可 以 启动 多 个 CoarseGrainedExecutorBackend 进程 ， 每 个 进程 对 应 一 
个 Executor。 





5.3.2 ”ExecutorBackend 的 不 同 实现 


ExecutorBackend 是 与 集群 交互 的 接口 ， 该 接口 在 不 同 的 调度 模式 下 有 不 同 的 实现 。 图 
5-3 是 ExecutorBackend 及 其 实现 的 关系 类 图 。 


o- ExecutorBackend | 





Pr statusUpdate © | 





LocalExecutorBackend 





= vonk : SparkConfig 
scheduler : TaskSchedulerImpl 
totalCores : int 
launchTask () 


registered () 
CoaseGrainedExecutorBackend 








MesosExecutorBackend 








conf : SparkConfig 
— scheduler : TaskSchedulerImpl 
totalCores : int + onStart () 
+ receive () 
onStart () 
receive () 




















图 $-3 ExecutorBackend 及 其 实现 的 关系 类 图 


不 同 模式 下 ，ExecutorRunner 启动 的 进程 不 一 样 。 在 Standalone 模式 下 启动 的 是 
org.apache.spark.executor.CoarseGrainedExecutorBackend 进程 ， 在 Local 模式 下 ， 启 动 的 是 
org.apache.spark.executor.LocalExecutorBackend 进程 ; 在 Mesos 模式 下， 启动 的 是 org.apache. 
spark.executor.MesosExecutorBackend 进程 。 

下 面 来 看 Standalone 模式 下 CoarseGrainedExecutorBackend 的 启动 .在 Standalone 模式 下 ， 
会 启动 org.apache.spark.deploy.Client 类 ， 该 类 将 向 Master 发 送 RequestSubmitDriver 
(driverDescription) 消 息 ，Master 中 匹配 到 RequestSubmitDriver(driverDescription) 后 , 将 会 调 
schedule 方法 。 该 调用 的 源码 如 下 所 示 。 
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Master scala 的 receiveAndReply 的 源码 如 下 。 


1. override def receiveAndReply (context: RpcCallContext): PartialFunction 
[Any, Unit] = { 


2 

i case RequestSubmitDriver (description) => 

- // 若 state 不 为 ALIVE， 直 接 向 Client 返回 SubmitDriverResponse (self, false, 
//None,msg) 消息 

5 if (state != RecoveryState.ALIVE) { 

) val msg = s"${Utils.BACKUP STANDALONE MASTER PREFIX}: $state. "+ 

了 "Can only accept driver submissions in ALIVE state." 

全 context .reply(SubmitDriverResponse (self, false, None, msg)) 

ge } else { 

Ei 让 logInfo("Driver submitted " + description.command.mainClass) 

11. // 使 用 description 创建 driver， 该 方法 返回 DriverDescription 

2 val driver = createDriver (description) 

9 persistenceEngine.addDriver (driver) 

La waitingDrivers += driver 

15. //waitingDrivers 等 待 在 调度 数组 中 加 入 该 driver 

有 drivers.add (driver) 

17. // 用 schedule 方法 调度 资源 

185 schedule() 

19. // 向 ClientEndpoint 回复 SubmitDriverResponse 消息 

20. 

ZT context .reply (SubmitDriverResponse (self, true, Some (driver.id), 

人 s"Driver successfully submitted as ${driver.id}")) 

之 3E } 


Master 的 receiveAndReply 收 到 RequestSubmitDriver 消息 后 ， 调 用 schedule 方法 。 
Master 的 schedule 的 源码 如 下 。 


由 private def schedule(): Unit = { 
2 if (state != RecoveryState.ALIVE) { 
:人 return 
4. } 
5 //Drivers 优先 于 executors 
6 val shuffledAliveWorkers = Random.shuffle (workers.toSeq.filter 
( .state == WorkerState .ALIVE)) 
人 val numWorkersAlive = shuffledAliveWorkers.size 
BE var curPos = 0 
9 for (driver <- waitingDrivers.toList) { // 遍 历 waitingDrivers 
0 // 以 循环 的 方式 给 每 个 等 候 的 driver 分 配 Worker。 对 于 每 个 driver， 我 们 从 分 配 
// 给 driver 的 最 后 一 个 Worker 开始 ， 继 续 前 进 ， 直 到 所 有 活跃 的 Worker 节点 
A 
2 var launched = false 
EE var numWorkersVisited = 0 
Eh while (numWorkersVisited < numWorkersAlive && !launched) { 
val worker = shuffledAliveWorkers (CurPos) 
16. numWorkersVisited += 1 
7 if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= 
driver.desc.cores) { 
ER 尖 launchDriver (worker, driver) 
149s waitingDrivers -= driver 
2202 launched = true 
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2 | 

2 curPos = (curPos + 1) $ numWorkersAlive 
2 } 

24. } 

Pd startExecutorsOnWorkers () 

2 } 


上 面 代码 中 ，RecoveryState 若 不 为 ALIVE， 则 直接 返回 ， 和 否则 使 用 Random.shuffle 将 
Workers 集合 打 乱 ， 过 滤 出 ALIVE 的 Worker， 生 成 新 的 集合 shuffledAliveWorkers， 尽 量 考 虑 
到 选择 Driver 的 负载 均衡 。 在 for 语句 中 遍历 waitingDrivers 队列 ， 判 断 Worker 剩余 内 存 和 
剩余 物理 核 是 否 满足 Driver 需求 ， 如 满足 ， 则 调用 launchDriver(worker,driven) 方 法 在 选中 的 
Worker 上 启动 Driver 进程 。 

实例 化 SparkContext 时 ， 在 SparkContext 中 将 实例 化 出 DAGScheduler 、 
StandaloneSchedulerBackend。Driver 在 Worker 节点 上 启动 之 后 ,在 StandaloneSchedulerBackend 
中 将 会 调用 new0 函数 创 建 一 个 StandaloneAppClient 。 StandaloneAppClient 中 有 一 个 
ClientEndpoint, 在 其 onStart 方法 中 将 向 Master 发 送 RegisterApplication 请 求 注册 application， 
注册 好 application 后 ，Master 又 会 调用 schedule 方法 ， 在 满足 条 件 的 Worker 上 为 application 
启动 Executor, 首先 会 启动 ExecutorRunner, 在 ExecutorRunner 中 启动 CoarseGrainedExecutor- 
Backend， 启 动 后 将 会 实例 化 出 Executor。 为 什么 在 Standalone 模式 下 会 启动 CoarseGrained- 
ExecutorBackend 呢 ? 在 什么 地 方 设置 要 启动 的 CoarseGrainedExecutorBackend 进程 呢 ? 其 
实 ， 在 实例 化 StandaloneAppClient 的 时 候 就 已 经 传 入 了 。 

StandaloneSchedulerBackend.scala 的 start 方法 代码 中 设置 了 Command 对 象 。Command 
对 象 的 第 一 个 参数 是 启动 进程 的 mainClass。 因 此 ，ExecutorRunner 中 启动 进程 时 ， 启 动 的 是 
org.apache.spark.executor.CoarseGrainedExecutorBackend 。 








5.3.3 ”ExecutorBackend 中 的 通信 


ExecutorBackend 是 一 个 被 Executor 使 用 的 可 插 拔 的 与 集群 通信 的 接口 。 在 
ExecutorBackend 中 有 statusUpdate(taskId: Long, state: TaskState, data: ByteBuffer) 方 法 , 通过 这 
个 方法 向 集群 发 送 Task 执行 的 各 种 信息 ， 如 果 任 务 执行 失败 ， 则 返回 失败 的 信息 ; 如 果 执 行 
成 功 ， 则 返回 任务 执行 的 结果 。 本 节 重 点 讲解 在 Standalone 模式 下 CoarseGrainedExecutor- 
Backend 中 的 通信 。CoarseGrainedExecutorBackend 在 整个 集群 中 的 通信 如 图 5-4 所 示 。 

在 图 5-4 中 ，Executor 与 CoarseGrainedExecutorBackend 协作 ， 将 任务 计算 的 结果 通过 
CoarseGrainedExecutorBackend 的 statusUpdate 方法 将 taskId、TaskState 以 及 结果 数据 发 送 给 
Driver。 Driver 收 到 StatusUpdate(executorld,tasked,state,data) 消 息 , 通过 判断 state 的 不 同 状态 ， 
进行 不 同 的 处 理 。 例 如 ， 当 state 的 状态 为 TaskState.LOST 时 ，Driver 端 会 移 除 Executor; 当 
state 的 状态 为 TaskState FINISHED 时 ，Driver 端 会 调用 enqueueSuccessfulTask 进行 处 理 。 

这 里 主要 看 CoarseGrainedExecutorBackend 与 Driver 之 间 的 通信 。 当 Worker 节点 中 启动 
ExecutorRunner 时 ，ExecutorRunner 中 会 启动 CoarseGrainedExecutorBackend 进程 ， 在 
CoarseGrainedExecutorBackend 的 onStart 方法 中 ， 向 Driver 发 出 RegisterExecutor 注册 请 求 。 
源码 如 下 所 示 。 
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CoarseGrainedExecutorBackend 


图 5-4 ”CoarseGrainedExecutorBackend 在 整个 集群 中 的 通信 





CoarseGrainedExecutorBackend 的 onStart 方法 的 源码 如 下 。 


了 override def onStart() { 

党 logInfo("Connecting to driver: " + driverUrl) 

了 过 rpcEnv.asyncSetupEndpointRefByURI (driverUr]1) .flatMap { ref => 

4. // 这 是 一 个 非常 快 的 行动 ， 所 以 我 们 可 以 用 "ThreadUtils.sameThread" 

号 < driver = Some (ref) 

6. // 向 Driver 发 送 ask 请 求 ， 等 待 Driver 回应 

时 ref.ask[Boolean] (RegisterExecutor (executorId, self, hostname, cores, 

extractLogUrls)) 

8. } (ThreadUtils.sameThread) .onComplete { 

9 // 这 是 一 个 非常 快 的 行动 ， 所 以 我 们 可 以 用 "ThreadUtils.sameThread" 

1 届 case Success (msg) => 

1 // 经 常 收 到 true， 可 以 忽略 

case Failure (e) => 

中 exitExecutor (1， s"Cannot register with driver: S$driverUrl", e, 
notifyDriver = false) 

人 } (ThreadUtils.sameThread) 

ey 


上 面 的 代码 中 ，Some(ref) 得 到 Driver 的 引用 ， 通 过 ask 方法 返回 Future[Boolean]， 然 后 
在 Future 对 象 上 调用 onComplete 方法 进行 额外 的 处 理 。Driver 端 收 到 注册 请 求 ， 将 会 注册 
Executor 的 请 求 ， 并 向 ListenerBus 中 发 送 SparkListenerExecutorAdded 事件 。 

如 果 executorDataMap 中 已 经 存在 该 Executor 的 id， 就 返回 RegisterExecutorFailed， 如 
果 不 存在 该 Executor 的 i4， 则 在 executorDataMap 中 加 入 该 Executor 的 id， 并 返回 
RegisteredExecutor 消息 且 向 listenerBus 中 添加 SparkListenerExecutorAdded 事件 。 
CoarseGrainedExecutorBackend 收 到 RegisteredExecutor 消息 后 ， 将 会 新 建 一 个 Executor 执行 
器 ， 并 为 此 Executor 充当 信使 ， 与 Driver 通信 。 CoarseGrainedExecutorBackend 收 到 
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RegisteredExecutor 消息 的 源码 如 下 所 示 。 
CoarseGrainedExecutorBackend.scala 的 receive 的 源码 如 下 。 


ek override def receive: PartialFunction[Any, Unit] = { 

case RegisteredExecutor => 

区 二 logInfo("Successfully registered with driver") 

4 Ey 

5 // 收 到 RegisteredExecutor 消息 ， 立 即 创建 Executor 

6 executor = new Executor (executorId, hostname, env, userClassPath, 
isLocal = false) 

Ee } catch { 

有 < case NonFatal (e) => 

9 exitExecutor (1, "Unable to create executor due to " + e.getMessage, e) 

10. 


从 上 面 的 代码 中 可 以 看 到 ，CoarseGrainedExecutorBackend 收 到 RegisteredExecutor 消息 
后 , 将 会 新 建 一 个 Executor。 由 此 可 见 , Executor 在 CoarseGrainedExecutorBackend 后 实例 化 ， 
这 与 Executor 和 CoarseGrainedExecutorBackend 的 不 同 职责 有 关 ，Executor 主要 负责 计算 ， 
而 CoarseGrainedExecutorBackend 主要 负责 通信 ， 通 信和 环境 准备 好 了 ， 架 起 同 
CoarseGrainedSchedulerBackend 通信 的 桥梁 ， 就 可 以 接收 CoarseGrainedSchedulerBackend 中 
调用 launchTask 方法 发 送 的 LaunchTask 消息 了 ， 因 此 通信 在 前 ， 计 算 在 后 。 

Executor 中 的 计算 结果 是 通过 CoarseGrainedExecutorBackend 的 statusUpdate 方法 返回 给 
CoarseGrainedExecutorBackend 的 。statusUpdate 方法 的 代码 如 下 所 示 。 

CoarseGrainedExecutorBackend.scala 的 源码 如 下 。 


2 override def statusUpdate (taskId: Long, state: TaskState, data: 
ByteBuffer) { 

val msg = StatusUpdate (executorId, taskId, state, data) 

三 志 driver match { 

4. // 向 Driver 发 送 StatusUpdate 消息 

5 case Some (driverRef) => driverRef.send (msg) 

6 case None => logWarning(s"Drop $msg because has not yet connected 

to driver") 
} 
} 


上 面 源码 中 ， 通 过 参数 taskId、state、data 构建 一 个 StatusUpdate 对 象 ， 该 对 象 将 被 当 作 
消息 发 送 到 Driver 端 ，Driver 根据 返回 结果 的 需要 ， 将 会 向 CoarseGrainedExecutorBackend 
发 送 新 的 指令 消息 ， 如 LaunchTask、KillTask、StopExecutors、Shutdown 等 。 





co ~] 


5.3.4 “ExecutorBackend 的 异常 处 理 


若 CoarseGrainedExecutorBackend 在 运行 中 出 现 异常 ,将 调用 exitExecutor 方 法 进行 处 理 ， 
处 理 以 后 ， 系 统 退 出 。exitExecutor 函数 可 以 由 其 他 子 类 重 载 来 处 理 ，Executor 执行 的 退出 方 
式 不 同 。 例 如 ， 当 Executor 挂 掉 了 ， 后 台 程 序 可 能 不 会 让 父 进 程 也 挂 掉 。 如 果 须 通知 Driver， 
Driver 将 清理 挂 掉 的 Executor 的 数据 。 

CoarseGrainedExecutorBackend 的 exitExecutor 方法 的 源码 如 下 。 




















2 protected def exitExecutor (code: Int, 
reason: String, 
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} 


throwable: Throwable = null, 
notifyDriver: Boolean = true) = { 
val message = "Executor self-exiting due to : " + reason 
if (throwable != null) { 
logError (message, throwable) 
} else { 
logError (message) 


} 


if (notifyDriver && driver.nonEmpty) { 
driver.get.ask[Boolean] ( 
RemoveExecutor (executorId, new ExecutorLossReason (reason)) 
) .onFailure { case e => 
logWarning (s"Unable to notify the driver due to " + e.getMessage, e) 
} (ThreadUtils.sameThread) 


System.exit (code) 


CoarseGrainedExecutorBackend 在 运行 中 一 旦 出 现 异常 情况 ， 将 调用 exitExecutor 方法 


Executor 向 Driver 注册 RegisterExecutor 失败 。 

Executor 收 到 Driver 的 RegisteredExecutor 注册 成 功 消息 以 后 ， 创 建 Executor 实例 
Driver 返回 Executor 注册 失败 消息 RegisterExecutorFailed。 

Executor 收 到 Driver 的 LaunchTask 启动 任务 消息 ， 但 是 Executor 为 null。 

Executor 收 到 Driver 的 KillTask 消息 ， 但 是 Executor 为 null。 

Executor 和 Driver 失去 连接 。 


5.4 Executor 中 任务 的 执行 


本 节 讲 解 Executor 中 任务 的 加 载 , 通过 launchTask0 方 法 加 载 任务 , 将 任务 以 TaskRunner 
的 形式 放 入 线程 池 中 运行 ， Executor 中 的 任务 线程 池 可 以 减少 在 创建 和 销毁 线程 上 所 花 的 时 
间 和 系统 资源 开销 ; TaskRunner 任务 执行 失败 处 理 以 及 TaskRunner 的 运行 内 幕 等 内 容 。 


5.4.1 


Executor 中 任务 的 加 载 


Executor 是 基于 线程 池 的 任务 执行 器 。 通 过 launchTask 方法 加 载 任 务 ， 将 任务 以 
TaskRunner 的 形式 放 入 线程 池 中 运行 。 

DAGScheduler 划分 好 Stage 通过 submitMissingTasks 方法 分 配 好 任务 ， 并 把 任务 交 由 
TaskSchedulerImpl 的 submitTasks 方法 ,将 任务 加 入 调度 池 , 之 后 调用 CoarseGrainedScheduler- 
Backend 的 riviveOffers 方法 为 Task 分 配 资源 ， 指 定 Executor。 任 务 资 源 都 分 配 好 之 后 ， 
CoarseGrainedSchedulerBackend 将 问 CoarseGranedExecutorBackend 发 送 LaunchTask 消息 ,将 
具体 的 任务 发 送 到 Executor 上 进行 计算 。 
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CoarseGranedExecutorBackend 匹配 到 LaunchTask(data) 消 息 之 后 ， 将 会 调用 Executor 的 
launchTask 方法 。launchTask 方法 中 将 会 构建 TaskRunner 对 象 ， 并 放 入 线程 池 中 执行 。 
Executor 中 Task 的 加 载 时 序 图 如 图 5-5 所 示 。 
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图 5-5 Executor 中 Task 的 加 载 时 序 图 


任务 加 载 好 后 , 在 Executor 中 将 会 把 构建 好 的 TaskRunner 放 入 线程 池 运 行 , 至 此 任务 完 
成 加 载 ， 开 始 运行 。 


5.4.2 “Executor 中 的 任务 线程 池 


Executor 是 构建 在 线程 池 之 上 的 任务 执行 器 。 在 Executor 中 使 用 线程 池 的 好 处 是 显 而 易 
见 的 ， 使 用 线程 池 可 以 减少 在 创建 和 销毁 线程 上 所 花 的 时 间 和 系统 资源 开销 。 如 果 不 使 用 线 
程 池 ， 可 能 造成 系统 创建 大 量 的 线程 而 导致 消耗 完 系统 内 存 以 及 出 现 “ 过 度 切 换 ”。 

为 什么 Executor 中 需要 线程 池 ? 使 用 线程 池 基 于 以 下 原因 : 首先 ， 在 Executor 端 执行 的 
任务 处 理 时 间 都 比较 短 ， 需 要 频繁 地 创建 和 销毁 线程 ， 这 样 就 带 来 了 巨大 的 创建 和 销毁 线程 
的 开销 ， 造 成 额外 的 系统 资源 开销 ; 其 次 ，Executor 中 处 理 的 任务 数量 巨大 ， 如 果 每 个 任务 
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都 创建 一 个 线程 ， 将 导致 消耗 完 系 统 内 存 ， 出 现 “ 过 度 切 换 ”。 

首先 来 看 Executor 中 的 线程 池 。Executor 中 使 用 的 是 CachedThreadPool， 使 用 这 种 类 型 
线程 池 的 好 处 是 : 任务 比较 多 时 可 以 自动 新 增 处 理 线程 , 而 任务 比较 少时 自动 回收 空闲 线程 。 

CoarseGrainedExecutorBackend 调用 Executor 的 launchTask 方法 ， 将 会 新 建 TaskRunner， 
然后 放 入 线程 池 进行 处 理 。 

从 上 面 的 源码 中 可 以 看 到 ， 新 建 的 TaskRunner 对 象 首 先 放 入 runningTasks 这 样 一 个 
ConcurrentHashMap 里 面 ， 然 后 使 用 线程 池 的 Execute 方法 运行 TaskRunner。Execute 方法 将 
会 调用 TaskRunner 的 run 方法 。 在 TaskRunner 的 run 方法 中 执行 计算 任务 。 


5.4.3 任务 执行 失败 处 理 








TaskRunner 在 计算 的 过 程 中 可 能 发 生 各 种 异常 ， 甚 至 错误 ， 如 抓 取 shuffle 结果 失败 、 任 
务 被 杀 死 、 没 权限 向 HDFS 写 入 数据 等 。 当 TaskRunner 的 run 方法 运行 的 时 候 ， 代 码 中 通过 
try-catch 语句 捕获 这 些 异 常 ， 并 通过 调用 CoarseGrainedExecutorBackend 的 statusUpdate 方法 
向 CoarseGrainedSchedulerBackend 汇报 。 

下 面 是 CoarseGrainedExecutorBackend 的 statusUpdate 方法 的 源码 如 下 。 
于 < override def statusUpdate (taskId: Long, state: TaskState, data: 
ByteBuffer) { 

val msg = StatusUpdate (executorId, taskId, state, data) 

人 driver match { 

4. case Some (driverRef) => driverRef.send (msg) 

5 case None => logWarning(s"Drop $msg because has not yet connected 

to driver") 
} 

在 statusUpdate 方法 中 ,通过 方法 的 参数 taskId、state、data 构建 一 个 StatusUpdate 对 象 ， 
并 通过 driverRef 的 send 方法 将 该 对 象 发 送 回 CoarseGrainedSheduleBackend 。 
CoarseGrainedScheduleBackend 匹配 到 StatusUpdate 时 ， 将 根据 StatusUpdate 对 象 中 的 state 
值 对 该 Task 的 执行 情况 做 出 判断 ， 并 执行 不 同 的 处 理 轴 和 辑 。 

从 源码 中 可 以 发 现 有 TaskState 对 象 ， 其 实 这 里 的 TaskState 是 一 个 枚 举 变量 ， 该 枚 举 变 
量 中 包括 LAUNCHING、RUNNING、FINISHED、FAILED、KILLED、LOST 这 些 枚 举 值 ， 
分 别 对 应 任务 执行 的 不 同 状态 。Executor 根据 任务 执行 的 不 同 状态 ， 通 过 statusUpdate 方法 
返回 特定 的 TaskState 值 ， 该 值 通过 ExecutorBackend 返回 给 SchedulerBackend ， 在 
SchedulerBackend 中 根据 TaskState 中 的 值 进行 处 理 。 

TaskState.scala 的 源码 如 下 。 


private[spark] object TaskState extends Enumeration { 


-a 











val LAUNCHING, RUNNING, FINISHED, FAILED, KILLED, LOST = Value 
private val FINISHED STATES = Set (FINISHED, FAILED, KILLED, LOST) 


type TaskState = Value 


oawm 必 ww 


def isFailed(state: TaskState) : Boolean = (LOST == state) || (FAILED == 
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state) 

0 

i def isFinished(state: TaskState): Boolean = FINISHED STATES.contains 
(state) 

2 

3- 


以 TaskState.FAILED 这 种 情况 为 例 ， 在 Executor 的 run 方法 中 ， 如 果 发 生 FetchFailed- 
Exeception、CommitDeniedExeception 或 其 他 Throwable 的 子 类 的 异常 ， 就 会 返回 TaskState. 
FAILED 状态 ， 该 状态 通过 CoaseGainedExecutorBackend 返回 。 在 CoaseGaiendScheduler- 
Backend 中 ， 匹 配 到 StatusUpdate 消息 ， 将 进行 相应 的 处 理 ， 匹 配 代 码 如 下 所 示 。 

CoarseGrainedSchedulerBackend.scala 的 StatusUpdate 的 源码 如 下 。 








5 后 override def receive: PartialFunction[Any, Unit] = { 

这 case StatusUpdate (executorlId, taskId, state, data) => 

3. // 调 用 TaskSchedulerImpl 更 新 状态 

可 scheduler.statusUpdate (taskId, state, data.value) 

5. // 若 状态 为 FINISHED, 则 从 executorDataMap 中 取出 executorId 对 应 的 ExecutorInfo 
G6 if (TaskState.isFinished(state)) { 

人 executorDataMap .get (executorId) match { 

:二 case Some (executorInfo) => 

a executorInfo.freeCores += scheduler.CPUS PER TASK 

10. // 用 makeOffers 方法 重新 分 配 资源 

Eh makeOffers (executorId) 

:| case None => 

3 // 因 为 不 知道 executor， 忽 略 更 新 

AE logWarning (s"Ignored task status update ($taskId state $state) "+ 
5 s"from unknown executor with ID SexecutorId") 

16 . 

二 } 

es } 


上 面 的 代码 中 , 首先 调用 TaskSchedulerImpl 的 statusUpdate 方法 , 该 方法 用 于 更 新 taskId 

对 应 任务 的 状态 。 完 成 更 新 之 后 ， 判 断 state 状态 是 否 FINISHED， 若 状态 为 FINISHED， 则 
从 executorDataMap 这 个 哈 希 表 中 取出 executorId 对 应 的 ExecutorData 对 象 , 修改 该 对 象 中 的 
freeCores 。 因 为 状态 已 经 为 FINISHED， 因 此 ExecutorData 中 的 freeCores 会 增加 
CPUS_PER_TASK 个 ， 这 里 的 CPU_PER_TASK 为 每 个 任务 占用 的 CPU 核 的 个 数 ， 该 个 数 
可 以 通过 spark.task.cpus 配置 项 进行 配置 。 

更 新 完成 ExecutorData 上 的 可 用 CPU 后 ， 这 些 闲 置 的 CPU 通过 makeOffers 方法 再 次 分 
配给 其 他 任务 使 用 。 

Spark 2.1.1 版 本 的 CoarseGrainedSchedulerBackend.scala 的 makeOffers 的 源码 如 下 。 


Private def makeOffers (executorId: String) { 
// 过 滤 存 活 的 Executor 
if (executorIsAlive(executorId)) { 
// 从 executorDataMap 这 个 哈 希 表 中 取出 executorId 对 应 的 ExecutorData 对 象 ， 
//ExecutorData 表示 Executor 上 的 一 组 资源 
Val executorData = executorDataMap (executorId) 
// 使 用 executorData 创建 Workeroffer 对 象 ， 该 对 象 代表 Executor 上 可 用 的 资源 
Val workOffers= IndexedSeq( 
new WorkerOffer (executorId，executorData .executorHost， 
executorData.freeCores)) 
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10. // 调 用 TaskschedulerImpl 上 的 resourceOffers 方法 , 为 任务 分 配 运行 资源 , 该 方法 返 
// 回 获得 运行 资源 的 任务 集合 ， 之 后 运行 launchTasks 方法 ， 将 这 些 任务 发 送 到 Executor 





// 上 运行 
ut launchTasks (scheduler .resourceOffers (workOffers)) 
2 } 
3 } 


Spark 2.2.0 版 本 的 CoarseGrainedSchedulerBackend.scala 的 makeOffers 的 源码 与 Spark 
2.1.1 版 本 相 比 具有 如 下 特点 。 
口 上 段 代 码 中 第 3 行 之 前 新 增加 了 同步 锁 CoarseGrainedSchedulerBackend.this.s 
ynchronized， 在 执行 某 项 任务 task 时 ， 确 保 没有 executor 被 杀 死 。 
口 上 段 代码 中 第 11 行 之 前 增加 scheduler.resourceOffers(workOffers) 以 及 Seq.empty 为 空 
的 情况 。 
口 上 段 代 码 中 第 11 行 launchTasks 方法 调整 增加 taskDescs 不 为 空 的 逻辑 判断 。 


ee 

至 : // 执 行 某 项 任务 时 ， 确 保 没有 Executor 被 杀 死 

有 val taskDescs = CoarseGrainedSchedulerBackend.this.synchronized { 
0 

5 scheduler.resourceOffers (workOffers) 
6 } else { 

和 Seq.empty 

8 T 

EE } 

10. if (!taskDescs.isEmpty) { 

Eh launchTasks (taskDescs) 

2 } 

zl } 


每 个 Executor 上 的 资源 发 生变 动 时 ,都 将 调用 makeOffers 方法 ,该 方法 的 作用 是 为 等 待 
执行 的 任务 分 配 资源 ， 并 通过 launchTasks 方法 将 这 些 任务 发 送 到 这 些 Executor 上 运行 。 这 
些 任务 将 被 包装 成 TaskRenner 对 象 ， 运 行 于 Executor 上 的 线程 池 中 。 


5.4.4 揭秘 TaskRunner 


TaskRunner 位 于 Executor 中 ， 继 承 自 Runnable 接口 ， 代 表 一 个 可 执行 的 任务 。Driver 
端 下 发 的 任务 最 终 都 要 在 Executor 中 封装 成 TaskRunner。 在 TaskRunner 的 run 方法 中 ,将 会 
进行 任务 的 解析 ， 并 调用 Task 接口 的 run 方法 进行 计算 。TaskRunner 定义 的 代码 如 下 所 示 。 

Spark 2.1.1 版 本 的 Executorscala 的 源码 如 下 。 

1. class TaskRunner 

4 execBackend: ExecutorBackend, // 通 过 execBackend 和 SchedulerBakend 通信 

Se val taskId: Long, 

站 val attemptNumber: Int, 

. 油 taskName: String, 
6 


serializedTask: ByteBuffer) 
extends Runnable { 


Spark 2.2.0 版 本 的 Executorscala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代 码 
中 第 3 一 6 行 TaskRunner 中 的 成 员 变 量 调整 为 新 增 成 员 变 量 TaskDescription 。 
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2 private val taskDescription: TaskDescription) 

TaskRunner 的 构造 函数 中 有 execBackend taskId attemptNumber、\taskName serializedTask 
5 个 参数 。 其 中 ，execBackend 作为 和 CoarseGrainedSchedulerBackend 通信 的 使 者 传 入 到 
TaskRunner 中 ， 在 任务 计算 状态 发 生变 化 的 时 候 ， 调 用 execBackend 的 statusUpdate 方法 向 
CoarseGrainedSchedulerBackend 报告 。 传 入 taskId 是 为 了 使 用 TaskMemoryManager 管理 该 
Task。attemptNumber 代表 任务 尝试 执行 的 次 数 ，serializedTask 是 序列 化 的 任务 。 序 列 化 的 任 
务 通过 序列 化 工具 反 序 列 化 得 到 任务 对 象 。 

在 TaskRunner 中 是 如 何 运 行 任务 的 ? 我 们 知道 ， 在 线程 池 中 启动 Runnable 任务 会 自动 
调用 Runnable 的 run 方法 ，TaskRunner 作为 一 个 Runnable 接口 的 实现 类 ， 启 动 时 会 自动 调 
用 其 run 方法 。run 方法 主要 完成 以 下 任务 。 

口 调用 ExecutorBackend 的 statusUpdate 方法 向 SchedulerBackend 发 送 任务 状态 更 新 

口 反 序 列 化 出 Task 和 相关 依赖 Jar 包 。 

口 调用 Task 上 的 run 方法 运行 任务 。 

口 返回 Task 运行 结果 。 

Task 是 一 个 接口 ，ResultTask 和 ShffleMapTask 是 其 两 种 实现 。Task 接口 中 提供 了 run 
方法 ， 用 于 运行 任务 。TaskRunner 的 run 方法 中 ， 会 通过 反 序 列 化 器 反 序 列 化 出 Task， 并 调 
用 Task 上 的 run 方法 运行 任务 ， 这 里 怎么 知道 是 ResultTask， 还 是 ShffleMapTask 呢 ? 其 实 ， 
这 里 不 管 是 ResultTask， 还 是 ShffleMapTask， 都 一 视 同 仁 ， 因 为 ResultTask 和 ShffleMapTask 
都 实现 了 Task 接口 ， 都 有 run 方法 。 这 正 是 面向 接口 编程 带 来 的 最 大 的 好 处 ， 灵 活 且 最 大 限 
度 地 复 用 代码 。 

Task 运行 结果 的 处 理 情况 有 3 种 : 第 一 种 情况 是 resultSize 大 于 maxResultSize， 这 种 情 
况 下 构建 IndirectTaskResult 对 象 ， 并 返回 该 IndirectTaskResult 对 象 ，IndirectTaskResult 对 象 
中 包含 结果 所 在 的 BlockId， 在 SchedulerBackend 中 可 以 通过 BlockManager 获得 该 BlockId 
对 应 的 结果 数据 ， 这 里 的 maxResultSize 默认 为 1GB; 第 二 种 情况 是 resultSize 大 于 Akka 帧 
的 大 小 , 这 种 情况 下 也 是 构建 IndirectTaskResult 对 象 , 并 返回 该 IndirectTaskResult 对 象 , Akka 
帧 的 大 小 为 128MB; 第 三 种 情况 是 直接 返回 DirectTaskResult， 这 是 在 resultSize 小 于 Akka 
帧 大 小 的 情况 下 采取 的 默认 返回 方式 。 














5.5 Executor 执行 结果 的 处 理 方 式 


本 节 讲 解 Executor 工作 原理 、ExecutorBackend 注册 源码 解密 、Executor 实例 化 内 幕 、 
Executor 具体 工作 内 幕 。 

Master 让 Worker 启动 , 启动 了 一 个 Executor 所 在 的 进程 ,在 Standalone 模式 中 , Executor 
所 在 的 进程 是 CoarseGrainedExecutorBackend。 

口 Master 侧 : Master 发 指令 给 Worker， 启 动 my 

口 Worker 侧 : Worker 接收 到 Master 发 过 来 的 指令 过 ExecutorRunner 启动 另外 一 
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个 进程 来 运行 Executor。 这 里 是 指 启动 另外 一 个 进程 来 启动 Executor， 而 不 是 直接 启 
动 Executor。Master 问 Worker 发 送 指 令 ，Worker 为 什么 启动 另外 一 个 进程 ? 在 另外 
一 个 进程 中 注册 给 Driver， 然 后 启动 Executor。 因 为 Worker 是 管理 机 器 上 的 资源 的 ， 
所 以 机 器 上 的 资源 变动 时 要 汇报 给 Master。Worker 不 是 用 来 计算 的 , 不 能 在 Worker 
中 进行 计算 ; Spark 集群 中 有 很 多 应 用 程序 ， 需 要 很 多 Executor， 如 果 不 是 给 每 个 
Executor 启动 一 个 对 应 的 进程 ， 而 是 所 有 的 应 用 程序 进程 都 在 同一 个 Executor 里 面 ， 

一 个 程序 崩溃 将 导致 其 他 程序 也 崩溃 。 

口 启动 CoarseGrainedExecutorBackend。CoarseGrainedExecutorBackend 是 Executor 所 在 
的 进程 。CoarseGrainedExecutorBackend 启动 时 ， 须 向 Driver 注册 。 通 过 发 送 
RegisterExecutor 向 Driver 注册 ， 注 册 的 内 容 是 RegisterExecutor。 

CoarseGrainedExecutorBackend .scala 的 onStart 方法 的 源码 如 下 。 








: override def onstart() { 

2 logInfo("Connecting to driver: " + driverUr]l) 

3 rpcEnv.asyncSetupEndpointRefByURI (driverUr]1) .flatMap { ref => 

4. // 这 是 一 个 非常 快 的 Action， 所 以 可 以 用 ThreadUtils.sameThread 

F 语 driver = Some (ref) 

| 请 ref.ask[Boolean] (RegisterExecutor (executorId, SeLtEy hostname, 


cores, extractLogUrls)) 


ye } (ThreadUtils.sameThread) .onComplete { 

8. // 这 是 一 个 非常 快 的 Action， 所 以 可 以 用 ThreadUtils.sameThread 

司 case Success (msg) => 

UoE / /经常 收 到 true， 可 忽略 

Ei case Failure (e) => 

2 exitExecutor (1， s"Cannot register with driver: S$driverUrl", e@, 
notifyDriver = false) 

3 } (ThreadUtils.sameThread) 

14. } 


其 中 ，RegisterExecutor 是 一 个 case class， 源 码 如 下 。 


case class RegisterExecutor!( 
executorId: String, 
executorRef: RpcEndpointRef, 
hostname: String, 
cores: Tnt, 
logUrls: Map[String, String]) 
extends CoarseGrainedClusterMessage 


FANAODP 


CoarseGrainedExecutorBackend 启动 时 ， 癌 Driver 发 送 RegisterExecutor 消息 进行 注册 ; 
Driver 收 到 RegisterExecutor 消息 ， 在 Executor 注册 成 功 后 会 返回 消息 RegisteredExecutor 给 
CoarseGrainedExecutorBackend。 这 里 注册 的 Executor 和 真正 工作 的 Executor 没有 任何 关系 ， 
其 实 注册 的 是 RegisterExecutorBackend。 可 以 将 RegisteredExecutor 理解 为 RegisterExecutorBackend。 

需要 特别 注意 的 是 ， 在 CoarseGrainedExecutorBackend 启动 时 向 Driver 注册 Executor， 
其 实质 是 注册 ExecutorBackend 实例 ， 和 Executor 实例 之 间 没 有 直接 关系 。 

口 CoarseGrainedExecutorBackend 是 Executor 运行 所 在 的 进程 名 称 ，CoarseGrained- 

ExecutorBackend 本 身 不 会 完成 任务 的 计算 。 
口 Executor 才 是 正在 处 理 任务 的 对 象 。Executor 内 部 是 通过 线程 池 的 方式 来 完成 Task 
的 计算 的 。Executor 对 象 运 行 于 CoarseGrainedExecutorBackend 进程 。 
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口 CoarseGrainedExecutorBackend 和 Executor 是 一 一 对 应 的 。 
口 CoarseGrainedExecutorBackend 是 一 个 消息 通信 体 (其 具体 实现 了 ThreadSafeRPCEndpoint)， 
可 以 发 送信 息 给 Driver， 并 可 以 接受 Driver 中 发 过 来 的 指令 ， 如 启动 Task 等 。 
CoarseGrainedExecutorBackend 继承 自 ThreadSafeRpcEndpoint, CoarseGrainedExecutor- 
Backend 是 一 个 消息 通信 体 ， 可 以 收 消息 ， 也 可 以 发 消息 。 源 码 如 下 。 


3 private[spark] class CoarseGrainedExecutorBackend ( 

区 override val rpcEnv: RpcEnv， 

3 driverUrl: String, 

4. executorId: String, 

Ss hostname: String, 

6 cores: Int, 

| userClassPath: Seq[URL], 

8 env: SparkEnv) 

9 extends ThreadSafeRpcEndpoint with ExecutorBackend with Logging { 


CoarseGrainedExecutorBackend 发 消息 给 Driver。Driver 在 StandaloneSchedulerBackend 
里 面 (Spark 2.0 中 已 将 SparkDeploySchedulerBackend 更 名 为 StandaloneSchedulerBackend) 。 
StandaloneSchedulerBackend 继承 自 CoarseGrainedSchedulerBackend ，start 启动 时 启动 
StandaloneAppClient。 StandaloneAppClient (Spark 2.0 中 已 将 AppClient 更 名 为 StandaloneApp- 
Client) 代表 应 用 程序 本 身 。 

StandaloneAppClient 的 源码 如 下 。 


private[spark] class StandaloneAppClient( 

rpcEnv: RpcEnv, 

masterUrls: Array[String], 

appDescription: ApplicationDescription, 

listener: StandaloneAppClientListener, 

conf: SparkConf) 

extends Logging { 

private class ClientEndpoint(override val rpcEnv: RpcEnv) extends 
ThreadSafeRpcEndpoint 
L102 with Logging { 


oo~awm 必 wmwN 


在 Driver 进程 中 有 两 个 至 关 重 要 的 Endpoint。 

OD ClientEndpoint: i 要 负责 向 Master 注册 当前 的 程序 ， 是 AppClient 的 内 部 成 员 。 

口 DriverEndpoint: 这 是 整个 程序 运行 时 的 驱动 器 ， 是 CoarseGrainedExecutorBackend 
的 内 部 成 员 。 

CoarseGrainedSchedulerBackend 的 DriverEndpoint 的 源码 如 下 。 





:8 class DriverEndpoint (override val rpcEnv: RpcEnv, sparkProperties: 
Seq[ (String, String)]) 
2 extends ThreadSafeRpcEndpoint with Logging { 


DriverEndpoint 会 接收 到 RegisterExecutor 消息 ， 并 完成 在 Driver 上 的 注册 。 
RegisterExecutor 中 有 一 个 数据 结构 executorDataMap， 是 Key-Value 的 方式 。 


private val executorDataMap = new HashMap[String, ExecutorDatal] 


ExecutorData 中 的 executorEndpoint 是 RpcEndpointRef。ExecutorData 的 源码 如 下 。 


ls 
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private[cluster] class ExecutorData( 

2 val executorEndpoint: RpcEndpointRef, 

属 val executorAddress: RpcAddress, 

4. override val executorHost: String, 

5 var freeCores: Int, 

Be override val totalCores: Int, 

Ts override val logUrlMap: Map[String, String] 


8. ) extends ExecutorInfo(executorHost, totalCores, logUrlMap) 


CoarseGrainedExecutorBackend.scala 的 RegisteredExecutor 的 源码 如 下 。 


s override def receive: PartialFunction[Any, Unit] = { 

区 case RegisteredExecutor => 

3 logInfo("Successfully registered with driver") 

六 EYE 

5 executor = new Executor (executorId, hostname, env, userClassPath, 
isLocal = false) 

6 } catch { 

ya case NonFatal (e) => 

,二 exitExecutor (1, "Unable to create executor due to " + e.getMessage, e) 

上 于 


CoarseGrainedExecutorBackend 收 到 RegisteredExecutor 消息 以 后 , 用 new0 函 数 创建 一 个 


Executor， 而 Executor 就 是 一 个 普通 的 类 。 
Spark 2.1.1 版 本 的 Executor.scala 的 源码 如 下 。 


private[spark] class Executor( 
executorId: String, 
executorHostname: String, 
env: SparkEnyv, 
userClassPath: Seq[URL] = Nil, 
isLocal: Boolean = false) 
extends Logging { 


~Iowm 心 wm 


Spark 2.2.0 版 本 的 Executor.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特 
中 第 6 行 之 后 Executor 新 增 了 UncaughtExceptionHandler 成 员 变量 ， 用 于 未 捕获 的 异 


站 

uncaughtExceptionHandler: UncaughtExceptionHandler = 
SparkUncaughtExceptionHandler) 

三 





回 到 ExecutorDatascala ， 其 中 的 RpcEndpointRef 是 代理 句柄 ， 


上 段 代 码 


ia 


是 。 


代理 


CoarseGrainedExecutorBackend。 在 Driver 中 , 通过 ExecutorData 封装 并 注册 ExecutorBackend 


的 信息 到 Driver 的 内 存 数据 结构 executorMapData 中 。 


“是 private[cluster] class ExecutorData( 

2 val executorEndpoint: RpcEndpointRef, 

3 val executorAddress: RpcAddress, 

4. override val executorHost: String, 

汪汪 Var freeCores: Int， 

6 override val totalCores: Int， 

学 override val logUrlMap: Map[String, String] 

8 ) extends ExecutorInfo(executorHost, totalCores, logUrlMap) 


Executor 注册 消息 提交 给 DriverEndpoint ， 通 过 DriverEndpoint 写 数 据 给 
CoarseGrainedSchedulerBackend 里 面 的 数据 结构 executorMapData 。 executorMapData 是 


“Me 
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CoarseGrainedSchedulerBackend 的 成 员 ， 因 此 最 终 注册 给 CoarseGrainedSchedulerBackend。 


CoarseGrainedSchedulerBackend 获得 Executor (其 实 是 ExecutorBackend) 的 注册 信息 。 


实际 在 执行 的 时 候 ，DriverEndpoint 会 把 信息 写 入 CoarseGrainedSchedulerBackend 的 内 
存 数据 结构 executorMapData 中 , 所 以 最 终 是 注册 给 了 CoarseGrainedSchedulerBackend。 也 就 


是 说 ,CoarseGrainedSchedulerBackend 掌 握 了 为 当前 程序 分 配 的 所 有 的 ExecutorBackend 过 


F 程 ， 


而 在 每 个 ExecutorBackend 进行 实例 中 ， 会 通过 Executor 对 象 负责 具体 任务 的 运行 。 在 运行 


的 时 候 使 用 synchronized 关键 字 来 保证 executorMapData 安全 地 并 发 写 操作 。 





CoarseGrainedSchedulerBackend.scala 的 receiveAndReply 方法 中 RegisterExecutor 注 
过 程 ， 源 码 如 下 。 


出 的 


Spark 2.1.1 版 本 的 CoarseGrainedSchedulerBackend.scala 的 receiveAndReply 方法 的 源码 





如 下 。 
: 肛 override def receiveAndReply (context: RpcCallContext): 
PartialFunction[Any, Unit] = { 
忆 
3 case RegisterExecutor (executorId, executorRef, hostname, cores, 
logUrls) => 
4 // 检 查 executorDataMap 中 是 否 包 含 该 executorId， 如 果 包 含 ， 就 返回 
//RegisterExecutorFailed 消息 
5 if (executorDataMap.contains (executorId)) { 
Os executorRef.send (RegisterExecutorFailed("Duplicate executor ID: 
"+ executorId)) 
1 context .reply (true) 
8. } else { 
9. // 车 executorRef.address 地 址 不 为 nul1， 则 取出 executorRef 的 地 址 作为 
//executorRddress， 和 否则 使 用 sender 的 Address 作为 executorRddress 
人 DE Val executorAddress = if (executorRef.address != null) { 
i executorRef .address 
Re } else { 
攻 油 context .senderAddress 
4. } 
本 logInfo(s"Registered executor S$executorRef ($executorAddress) 
with ID $executorId") 
6. // 在 addressToExecutorId 这 个 哈 希 表 中 加 入 executorRddress 和 executorId 的 对 
// 应 关系 
a addressToExecutorId (executorAddress) = executorId 
8. //totalCore 增 加 cores 个 
人 5 totalCoreCount .addAndGet (cores) 
20: totalRegisteredExecutors.addAndGet (1) 
21. // 创 建 ExecutorData 对 象 
2 val data = new ExecutorData (executorRef, executorRef.address, 
hostname, 
3 cores, cores, logUrls) 
24. // 同 步 代 码 块 
2 CoarseGrainedSchedulerBackend.this.synchronized { 
26. // 在 executorDataMap 中 加 入 executorId 和 ExecutorData 的 对 应 关系 
Zs executorDataMap .put (executorId, data) 
和 28 if (currentExecutorIdCounter < executorId.toInt) { 
人 29 currentExecutorIdCounter = executorId.toInt 
30, | 
3 // 如 果 挂 起 的 Executors 的 数量 大 于 0 
六 if (numPendingExecutors > 0) { 
3 numPendingExecutors -= 1 


= 


3 
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logDebug (s"Decremented number of pending executors 
(SnumPendingExecutors left)") 
} 
} 
executorRef .send (RegisteredExecutor) 
// 注 : 有 些 测试 期 望 将 executor 放 在 map 中 进行 reply 
// 向 CoarseGrainedExecutorBackend 回复 true 
context .reply (true) 
listenerBus.post( 
SparkListenerExecutorAdded (System.currentTimeMillis()， 
executorId, data)) 
// 调 用 makeoffers， 给 Executor 发 送 执行 任务 
makeOffers () 
上 


Spark 2.2.0 版 本 CoarseGrainedSchedulerBackend.scala 的 receiveAndReply 方法 的 源码 与 
Spark 2.1.1 版 本 相 比 具 有 如 下 特点 : 上 段 代 码 中 第 8 行 之 前 ， 新 增 下 语句 对 黑 名 单 节点 进行 


判断 。 


} else if (scheduler.nodeBlacklist != null && 
scheduler .nodeBlack1list.contains (hostname)) { 
// 如 果 集 群 管理 器 分 配给 我 们 一 个 Executor， 而 这 个 Executor 在 黑 名 单 节 点 列 
// 表 中 【因为 通知 它 是 黑 名 单 节点 之 前 ， 集 群 已 经 开始 分 配 这 些 资源 了 ) ， 如 果 集 群 
// 忽 略 了 我 们 的 黑 名 单 ， 那 么 我 们 立即 拒绝 Executor 
logInfo(s"Rejecting $executorId as it has been blacklisted.") 
executorRef .send (RegisterExecutorFailed(s"Executor is blacklisted: 
SexecutorId") ) 
Context .reply (true) 


CoarseGrainedSchedulerBackend.scala 中 的 RegisterExecutor: 


口 


口 


口 


> 


.194 


先 判断 executorDataMap 是 否 已 经 包含 executorId， 如 果 已 经 包含 ， 就 会 发 送 注册 失 
败 的 消息 RegisterExecutorFailed， 因 为 已 经 有 重复 的 executor ID 的 Executor 在 运行 。 
然后 进行 Executor 的 注册 ,获取 到 executorAddress， 在 executorRef address 为 空 的 情 
况 下 就 获取 到 senderAddress。 

定义 了 3 个 数据 结构 : addressToExecutorId totalCoreCount、 totalRegisteredExecutors， 
其 中 ，addressToExecutorId 是 DriverEndpoint 的 数据 结构 ， 而 totalCoreCount 、 
totalRegisteredExecutors 是 CoarseGrainedSchedulerBackend 的 数据 结构 。 
addressToExecutorId、totalCoreCount、totalRegisteredExecutors 包含 Executors 注册 的 
信息 分 别 为 : RPC 地 址 主机 名 和 端口 与 Executorld 的 对 应 关系 、 集 群 中 的 总 核 数 
Cores、 当 前 注册 的 Executors 总 数 等 。 


protected val addressToExecutorId = new HashMap[RpcAddress, String] 
protected val totalCoreCount = new AtomicInteger (0) 
protected val totalRegisteredExecutors = new AtomicInteger (0) 
然后 调用 new0 函 数 创建 一 个 ExecutorData, 提取 出 executorRef、 executorRef.address、 
hostname、cores、cores、logUrls 等 信息 。 
同步 代码 块 CoarseGrainedSchedulerBackend .this.synchronized : 集群 中 很 多 Executor 
向 Driver 注册 , 为 防止 写 冲 突 , 因此 设计 一 个 同步 代码 块 。 在 运行 时 使 用 synchronized 
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关键 字 ， 来 保证 executorMapData 安全 地 并 发 写 操作 。 

口 executorRef.send(RegisteredExecutor) 发 消息 RegisteredExecutor 给 我 们 的 sender， 
sender 是 CoarseGrainedExecutorBackend。 而 CoarseGrainedExecutorBackend 收 到 消息 
RegisteredExecutor 以 后 ， 就 调用 newO 函 数 创建 了 Executor。 

CoarseGrainedExecutorBackend 收 到 DriverEndpoint 发 送 过 来 的 RegisteredExecutor 消息 

后 会 启动 Executor 实例 对 象 ， 而 Executor 实例 对 象 事实 上 是 负责 真正 Task 计算 的 。 














天 override def receive: PartialFunction[Any, Unit] = { 

名 < case RegisteredExecutor => 

号 logInfo("Successfully registered with driver") 

4. Ery 

汪 executor = new Executor (executorId, hostname, env, userClassPath, 
isLocal = false) 

6. Vy catch | 

es case NonFatal (e) => 

:全 exitExecutor (1, "Unable to create executor due to " + e.getMessage, e) 

9 } 


下 面 来 看 一 下 Executor.scala， 其 中 的 threadPool 是 一 个 线程 池 。 

Executor 是 真正 负责 Task 计算 的 ， 其 在 实例 化 的 时 候 会 实例 化 一 个 线程 池 threadPool 
来 准备 Task 的 计算 。threadPool 是 一 个 newDaemonCachedThreadPool。newDaemonCached- 
ThreadPool 创建 线程 池 ， 线 程 工厂 按照 需要 的 格式 调用 new0 函 数 创 建 线 程 。 语 法 实现 如 下 。 

a def newDaemonCachedThreadPool (prefix: String) : ThreadPoolExecutor = { 

了 val threadFactory = namedThreadFactory (prefix) 

3 Executors .newCachedThreadPool (threadFactory) .asInstanceOf 


[ThreadPoolExecutor] 
4. } 


namedThreadFactory 的 源码 如 下 。 


1 def namedThreadFactory (prefix: String): ThreadFactory = { 

2 new ThreadFactoryBuilder() .setDaemon (true) .setNameFormat (prefix + 
"= ebuild(y 

3 } 


newCachedThreadPool 创建 一 个 线程 池 ， 根 据 需 要 创建 新 线程 ， 线 程 池 中 的 线程 可 以 复 
用 ， 使 用 提供 的 ThreadFactory 创建 新 线程 。newCachedThreadPool 的 源码 如 下 。 


: 限 public static ExecutorService newCachedThreadPool (ThreadFactory 
threadFactory) { 
2 return new ThreadPoolExecutor(0, Integer.MAX VALUE, 


60L, TimeUnit.SECONDS, 
new SynchronousQueue<Runnable> () ， 
threadFactory); 
3. } 
创建 的 threadPool 中 以 多 线程 并 发 执行 和 线程 复 用 的 方式 来 高 效 地 执行 Spark 发 过 来 的 
Task。 线 程 池 创 建 好 后 ， 接 下 来 是 等 待 Driver 发 送 任务 给 CoarseGrainedExecutorBackend, 不 
是 直接 发 送 给 Executor， 因 为 Executor 不 是 一 个 消息 循环 体 。 
Executor 具体 是 如 何 工 作 的 ? 
当 Driver 发 送 过 来 Task 的 时 候 ， 其 实 是 发 送 给 了 CoarseGrainedExecutorBackend 这 个 
RpcEndpoint， 而 不 是 直接 发 送 给 了 Executor (Executor 由 于 不 是 消息 循环 体 ， 所 以 永远 也 无 
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法 直接 接收 远程 发 过 来 的 信息 ) 。 

Driver 向 CoarseGrainedExecutorBackend 发 送 LaunchTask， 转 过 来 交 给 线程 池 中 的 线程 
去 执行 . 先 判断 Executor 是 否 为 空 ,Executor 为 空 , 则 提示 错误 , 进程 就 直接 退出 。 如 果 Executor 
不 为 空 ， 则 反 序列 化 任务 调用 Executor 的 launchTask， 其 中 ，attemptNumber 是 任务 可 以 重 试 
的 次 数 。 

ExecutorBackend 收 到 Driver 发 送 的 消息 ， 调 用 launchTask 方法 ， 提 交 给 Executor 执行 。 

Executor.scala 的 launchTask 接收 到 Task 执行 的 命令 后 , 首先 将 Task 封装 在 TaskRunner 
里 面 ， 然 后 放 到 runningTasks。runningTasks 是 一 个 简单 的 数据 结构 。 


private val runningTasks = new ConcurrentHashMap[Long, TaskRunner] 





launchTask 最 后 交 给 threadPool.execute(tr), 交 给 线程 池 中 的 线程 执行 任务 。 TaskRunner 
继承 自 Runnable， 是 Java 的 一 个 对 象 。 

TaskRunner 其 实 是 Java 中 Runnable 接口 的 具体 实现 ， 在 真正 工作 时 会 交 给 线程 池 中 的 
线程 去 运行 ， 此 时 会 调用 run 方法 来 执行 Task。 

Executor.scala 中 的 Run 方法 最 终 调用 task.run 方法 。 

Spark 2.1.1 版 本 的 Executor.scala 的 oun 方法 的 源码 如 下 。 


后 override def run(): Unit = { 

六 

三 记 Var threwException = true 

A val value = try { 

5- val res = task.run( 

6 taskAttemptId = taskId, 

De attemptNumber = attemptNumber, 

8. metricsSystem = env.metricsSystem) 

:大 threwException = false 

0s res 

i Elinally yl 

{l= val releasedLocks = env.blockManager.releaseAllLocksForTask 
(taskId) 

EE 

ee 


Spark 2.2.0 版 本 的 Executor.scala 的 run 方 法 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 
上 段 代 码 中 第 7 行 task.run 方法 的 第 二 个 参数 由 attemptNumber 调整 为 taskDescription. 
attemptNumber。 


2 attemptNumber = taskDescription.attemptNumber, 


跟 进 Task.scala 中 的 run 方法 ， 在 里 面 调用 runTask。 


EE final def run( 

这 六 taskAttemptId: Long, 

从 attemptNumber: Int, 

-i metricsSystem: MetricsSystem): T= { 
ed 

6= PY 

可 runTask (context) 

:加 catch 

:让 


we 
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TaskRunner 在 调用 run 方 法 时 会 调用 Task 的 mn 方法 ,而 Task 的 rn 方法 会 调用 rmnTask， 
实际 上 ，Task 有 ShuffleMapTask 和 ResultTask。 


7 


5.6 本 章 总 结 





本 章 主要 讲解 了 Master、Worker 的 启动 原理 和 源码 详解 ， 讲解 了 ExecutorBackend 通信 
接口 ， 以 及 ExecutorBackend 与 Executor 的 关系 。ExecutorBackend 负责 与 集群 通信 ， 而 
Executor 则 专注 于 任务 的 处 理 ， 它 们 是 一 对 一 的 关系 ;讲解 了 Executor 中 任务 执行 的 细节 ， 
包括 任务 的 加 载 、 任 务 线程 池 、 任 务 执行 失败 处 理 、 任 务 的 载体 TaskRunner。 然 后 ， 本 章 整 
体 上 贯通 Executor 工作 原理 、ExecutorBackend 注册 源码 、Executor 实例 化 内 幕 、Executor 具 
体 工 作 内 幕 等 内 容 。 
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第 6 章 SparkApplication 提交 给 集群 的 原 
理 和 源码 详解 


本 章 讲解 Spark Application 提交 给 集群 的 原理 和 源码 。6.1 节 讲 解 Spark Application 到 底 
是 如 何 提交 给 集群 的 。6.2 节 讲 解 Spark Application 是 如 何 向 集群 申请 资源 的 。6.3 节 讲 解 从 
Application 提交 的 角度 重新 审视 Driver; 6.4 节 讲 解 从 Application 提交 的 角度 重新 审视 
Executor。6.5 节 讲 解 Spark 1.6 RPC 内 幕 解 密 : 运行 机 制 、 源 码 详解 、Netty 与 Akka 等 内 容 。 














6.1 Spark Application 到 底 是 如 何 提交 给 集群 的 


本 节 讲 解 Application 提交 参数 配置 、Application 提交 给 集群 原理 、Application 提交 给 集 
群 源码 等 内 容 ， 将 彻底 解密 Spark Application 到 底 是 如 何 提 交 给 集群 的 。 


6.1.1 Application 提交 参数 配置 详解 


用 户 应 用 程序 可 以 使 用 bin/spark-submit 脚本 来 启动 。spark-submit 脚本 负责 使 用 Spark 
及 其 依赖 关系 设置 类 路 径 ， 并 可 支持 Spark 支持 的 不 同 群集 管理 器 和 部 署 模式 。 
bin/spark-submit 脚本 示例 如 下 。 
./bin/spark-submit \ 
--class <main-class> \ 
--master <master-url> \ 
--deploy-mode <deploy-mode> \ 
--conf <key>=<value> \ 
- # other options 
<application-jar> \ 
[application-arguments] 
spark-submit 脚本 提交 参数 配置 中 一 些 常用 的 选项 。 
--class: 应 用 程序 的 入 口 点 〈 如 org.apache.spark.examples.SparkPi)。 
--master: 集群 的 主 URL (如 spark://23.195.26.187:7077)。 
--deploy-mode: 将 Driver 程 序 部 署 在 集群 Worker 节点 (cluster); 或 作为 外 部 客户 端 (client) 
部 署 在 本 地 〈 默 认 值 : client)。 
--conf: 任意 Spark 配置 属性 , 使 用 key = value 格式 。 对 于 包含 空格 的 值 , 用 引号 括 起 来 ， 
如 “key=value”。 
application-jar: 包含 应 用 程序 和 所 有 依赖 关系 Jar 包 的 路 径 。 该 URL 必须 在 集群 内 全 局 
可 见 。 例 如 ， 所 有 节点 上 存在 的 hdfs:// 路 径 或 file:// 路 径 。 
application-arguments: 传递 给 主 类 的 main 方法 的 参数 。 


co vawm 心 wN 
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6.1.2 Application 提交 给 集群 原理 详解 


在 Spark 官网 部 署 页 面 (http://spark.apache.org/docs/latest/cluster-overview.html)， 可 以 看 
到 当前 集群 支持 以 下 3 种 集群 管理 器 (cluster manager)。 

(1) Standalone: Spark 原生 的 简单 集群 管理 器 。 使 用 Standalone 可 以 很 方便 地 搭建 一 

(2) Apache Mesos: 一 个 通用 的 集群 管理 器 ， 可 以 在 上 面 运行 HadoopMapReduce 和 一 些 
服务 型 的 应 用 。 

(3) Hadoop YARN: 在 Hadoop 2 中 提供 的 资源 管理 器 。 

另外 , Spark 提供 的 EC2 启动 脚本 , 可 以 很 方便 地 在 Amazon EC2 上 启动 一 个 Standalone 

实际 上 ， 除 了 上 面 这 些 通用 的 集群 管理 器 外 ，Spark 内 部 也 提供 一 些 方便 我 们 测试 、 学 
习 的 简单 集群 部 署 模式 。 为 了 更 全 面 地 理解 ， 我 们 会 从 Spark 应 用 程序 部 署 点 切入 ， 也 就 是 
从 提交 一 个 Spark 应 用 程序 开始 ， 引 出 并 详细 解析 各 种 部 署 模式 。 


全 说 明 : 下 面 涉及 类 的 描述 时 ， 如 果 可 以 通过 类 名 唯一 确定 一 个 类 ， 将 直接 给 出 类 名 ， 如 果 
不 能 ， 会 先 给 出 全 路 径 的 类 名 ， 然 后 在 不 出 现 歧义 的 地 方 再 简写 为 类 名 。 

为 了 简化 应 用 程序 提交 的 复杂 性 ，Spark 提供 了 各 种 应 用 程序 提交 的 统一 入 口 ， 即 
spark-submit 脚本 ， 应 用 程序 的 提交 都 间接 或 直接 地 调用 了 该 脚本 。 下 面 简 单 分 析 几 个 脚本 ， 
包含 .bin/spark-shell、./bin/pyspark、./bin/sparkR、./bin/spark-sql、./bin/run-example、./bin/speak- 
submit， 以 及 所 有 脚本 最 终 都 调用 到 的 一 个 执行 Java 类 的 脚本 ./bin/spark-class。 


1. 脚本 ./bin/spark-shell 
通过 该 脚本 可 以 打开 使 用 Scala 语言 进行 开发 、 调 试 的 交互 式 界面 ， 脚 本 的 代码 如 下 所 示 。 








二 

2. function main() { 

x 

4. "${SPARK HOME}"/bin/spark-submit --class org.apache.spark.repl.Main 
--name "Spark shell" "S$@" 

5. sttyicanon echo > /dev/null 2>&1 

6. else 

7. export SPARK SUBMIT OPTS 

8. "${SPARK HOME}"/bin/spark-submit --class org.apache.spark.repl.Main 
—--name "Spark shell" "S$@" 

:0 

LO 

be 











对 应 在 第 4 行 和 第 8 行 处 ， 调 用 了 应 用 程序 提交 脚本 ./bin/spark-submit。 脚 本 ./bin/spark- 
shell 的 基本 用 法 如 下 所 示 : 


1. "Usage: ./bin/spark-shell [options]" 


其 他 脚本 类 似 。 下 面 分 别针 对 各 个 脚本 的 用 法 (具体 用 法 可 查看 脚本 的 帮助 信息 ， 如 通 
过 --help 选项 来 获取 ) 与 关键 执行 语句 等 进行 简单 解析 。 了 解 工具 〈 如 脚本 ) 如 何 使 用 ， 最 
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根本 的 是 先 查 看 其 帮助 信息 ， 然 后 在 此 基础 上 进行 扩展 。 
2. 脚本 ./bin/pyspark 
通过 该 脚本 可 以 打开 使 用 Python 语言 开发 、 调 试 的 交互 式 界面 。 
(1) 该 脚本 的 用 法 如 下 。 
1. "Usage: ./bin/pyspark [options]" 
(2) 该 脚本 的 执行 语句 如 下 。 


1. exec "${SPARK HOME}"/bin/spark-submit pyspark-shell-main --name 
"PySparkShell" "$@" 


3. 脚本 ./bin/sparkR 

通过 该 脚本 可 以 打开 使 用 sparkR 开发 、 调 试 的 交互 式 界面 。 
(1) 该 脚本 的 用 法 如 下 。 

1. "Usage: ./bin/sparkR [options]" 

(2) 该 脚本 的 执行 语句 如 下 。 

1. exec "${SPARK HOME}"/bin/spark-submit sparkr-shell-main "$@" 
4. 脚本 ./bin/spark-sql 

通过 该 脚本 可 以 打开 使 用 SparkSql 开发 、 调 试 的 交互 式 界面 。 
(1) 该 脚本 的 用 法 如 下 。 

1. "Usage: ./bin/spark-sql [options] [cli option]" 
(2) 该 脚本 的 执行 语句 如 下 。 


1. exec "${SPARK HOME}"/bin/spark-submit --class org.apache.spark.sql.hive. 
thriftserver.SparksQLCLIDriver "Se@" 


5. 脚本 ./bin/run-example 


可 以 通过 该 脚本 运行 Spark 自 带 的 案例 代码 。 该 脚本 中 会 自动 补 全 案例 类 的 路 径 。 

(1) 该 脚本 的 用 法 如 下 。 

1. echo "Usage: ./bin/run-example <example-class> [example-args]" 1>&2 

2. echo " - set MASTER=XX to use a specific master" 1>&2 

3. echo " - can use abbreviated example class name relative to com.apache. 
spark.examples" 1>&2 


4. echo " (e.g. SparkPi, mllib.LinearRegression, streaming. 
KinesisWordCountASL)" 1>&2 


2) 该 脚本 的 执行 语句 如 下 。 


( 

ER exec "${SPARK HOME}"/bin/spark-submit \ 
2 --master SEXAMPLE MASTER \ 

Sis --class $EXAMPLE CLASS \ 

4 "$SPARK EXAMPLES JAR" \ 

看 "$@" 
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6. 脚本 ./bin/spark-submit 


-bin/spark-submit 是 提交 Spark 应 用 程序 最 常用 的 一 个 脚本 。 从 前 面 各 个 脚本 的 解析 可 以 
看 出 ， 各 个 脚本 最 终 都 调用 了 ./bin/spark-submit 脚本 。 

(1) 该 脚本 的 用 法 如 下 。 

该 脚本 的 用 法 需要 从 源码 中 获取 ， 有 具体 源码 位 置 参考 SparkSubmitArguments 类 的 方法 
printUsageAndExit， 代 码 如 下 。 


1. val command = sys.env.get(" SPARK CMD USAGE") .getOrElse!( 


2. """Usage: spark-submit [options] <app jar | python file> [app 3 
3 IUsage: spark-submit --kill [submission ID] --master [spark://...] 
4. IUsage park-submit --status [submission ID] --master [spark: 





Wil EripMargin} 


(2) 该 脚本 的 执行 语句 如 下 。 


1. exec "${SPARK HOME}"/bin/spark-class org.apache.spark.deploy. 
SparkSubmit "$@" 


7. 脚本 ./bin/spark-class 


该 脚本 是 所 有 其 他 脚本 最 终 都 调用 到 的 一 个 执行 Java 类 的 脚本 。 其 中 关键 的 执行 语句 如 
下 所 示 。 


CMD= () 
while IFS= read -d '' -r ARG; do 
CMD+= ("$ARG") 
done << ("$RUNNER" -cp "$LAUNCH CLASSPATH" org.apache.spark.launcher.Main 
"$s@") 
5. exec "${CMD[@]}" 


其 中 ， 负 责 运行 的 RUNNER 变量 设置 如 下 。 


# Find the java binary 
// 将 RUNNER 设置 为 Java 
if [ -n "${JAVA HOME}" ]; then 
RUNNER="${JAVA HOME}/bin/java" 
else 
if [ ‘command -v java”]; then 
RUNNER="]java" 
else 
echo "JAVA HOME is not set" >&2 
LO exit 1 


PODP 


OANAONP 


在 脚本 中 ，LAUNCH_CLASSPATH 变量 对 应 Java 命令 运行 时 所 需 的 classpath 信息 。 
终 Java 命令 启动 的 类 是 org.apache.spark.launcherMain。Main 类 的 入 口 函 数 main， 会 根据 
入 参数 构建 出 最 终 执 行 的 命令 ， 即 这 里 返回 的 S{YCMD[@]} 信 息 ， 然 后 通过 exec 执行 。 





芍 没 





6.1.3 Application 提交 给 集群 源码 详解 











本 节 从 应 用 部 署 的 角度 解析 相关 的 源码 ， 主 要 包括 脚本 提交 时 对 应 JVM 进程 启动 的 主 
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类 org.apache.spark.launcher.Main、 定 义 应 用 程序 提交 的 行为 类 型 的 类 org.apache.spark.deploy- 
SparkSubmitAction、 应 用 程序 封装 底层 集群 管理 器 和 部 署 模 式 的 类 org.apache.spark.deploy. 
SparkSubmit， 以 及 代表 一 个 应 用 程序 的 驱动 程序 的 类 org.apache.spark.SparkContext。 


类 


ew 


1. Main 解 析 


从 前 面 的 脚本 分 析 , 得 出 最 终 都 是 通过 org.apache.spark.launcher.Main 类 (下 面 简 称 Main 
启动 应 用 程序 的 。 因 此 ， 首 先 解析 一 下 Main 类 。 
在 Main 类 的 源码 中 ， 类 的 注释 如 下 。 

















工 。  /** 
2. ”* Spark 启动 器 的 命令 行 接口 。 在 Spark 脚本 内 部 使 用 
让 和 
4. A 


对 应 地 ， 在 Main 对 象 的 入 口 方法 main 的 注释 如 下 。 
Main.java 源码 如 下 。 


Usage: Main [class] [class args] 


<p> 

命令 行 界面 工作 在 两 种 模式 下 : 

<ul> 
<li>"spark-submit": if <i>class</i> is "org.apache.spark.deploy. 
SparkSubmit", the {@link SparkLauncher} class is used to launch a 
Spark application. </1i> 
<li>"spark-class": if another class is provided, an internal Spark 
class is run.</1i> 

</ul> 

UO 


OAODpPp 


Main 类 主要 有 两 种 工作 模式 ， 分 别 描述 如 下 。 

(1) spark-submit 

启动 器 要 启动 的 类 为 org.apache.spark.deploy.SparkSubmit 时 , 对 应 为 spark-submit 工作 模 
此 时 ， 使 用 SparkSubmitCommandBuilder 类 来 构建 启动 命令 。 

(2) spark-class 

启动 器 要 启动 的 类 是 除 SparkSubmit 之 外 的 其 他 类 时 ， 对 应 为 spark-class 工作 模式 。 此 


时 使 用 SparkClassCommandBuilder 类 的 buildCommand 方法 来 构建 启动 命令 。 


Main.java 的 源码 如 下 。 

1. public static void main (String[] argsArray) throws Exception { 
和 

3. String className = args.remove (0) 7 

人 

Se if (className.equals ("org.apache.spark.deploy.SparkSubmit")) { 
[ try { 
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了 5 builder = new SparkSubmitCommandBuilder (args) 7 

0 

9 } else { 

人 Ai builder = new SparkClassCommandBuilder (className, args); 
LD | 

3 A A 


以 spark-submit 工作 模式 为 例 ， 对 应 的 在 构建 启动 命令 的 SparkSubmitCommandBuilder 
类 中 ， 上 述 调 用 的 SparkClassCommandBuilder 构造 函数 定义 如 下 。 
SparkSubmitCommandBuilderjava 的 源码 如 下 。 


五 SparkSubmitCommandBuilder (List<String> args) { 
this.allowsMixedArguments = false; 

3 this.sparkArgs = new ArrayList<>(); 

4. boolean isExample = false; 

Ss List<String> submitArgs = args; 

6. // 根 据 输入 的 第 一 个 参数 设置 ， 包 括 主 资源 appResource 等 

村 这 if (args.size() > 0) { 

小 二 Switch (args.get(0)) { 

9 Case PYSPARK SHELL: 

10% this.allowsMixedArguments = true; 

ls appResource = PYSPARK SHELL; 

2 submitArgs = args.subList(1, args.size()); 
13e break; 

14. 

dS case SPARKR SHELL: 

16. this.allowsMixedArguments = true; 

Me appResource = SPARKR SHELL; 

18 . submitArgs = args.subList(1, args.size()); 
19- break; 

人 2D: 

之 > case RUN EXAMPLE: 

2 isExample = true; 

23 submitArgs = args.subList(1, args.size()); 
24. } 

2 

26. this.isExample = isExample; 

A OptionParser parser = new OptionParser(); 

2 parser.parse (submitArgs); 

Zs this.isAppResourceReq = parser.isAppResourceReq; 
30. } else { 

< this.isExample = isExample; 

2 this.isAppResourceReq = false; 

23 } 

< 


从 这 些 初 步 的 参数 解析 可 以 看 出 ， 前 面 脚本 中 的 参数 与 最 终 对 应 的 主 资源 间 的 对 应 关系 
见 表 6-1。 


表 6-1 脚本 中 的 参数 与 主 资源 间 的 对 应 关系 
脚本 中 的 参数 

-bin/pyspark | PYSPARK SHELL = "pyspark-shell-main" 
SPARKR SHELL = "sparkr-shell-main" 








PYSPARK SHELL RESOURCE ="pyspark-shell" 
SPARKR. SHELL RESOURCE ="sparkr-shell" 


如 果 继 续 跟 踪 appResource 赋值 的 源码 ， 可 以 跟踪 到 一 些 特殊 类 的 类 名 与 最 终 对 应 的 主 
资源 间 的 对 应 关系 ， 见 表 6-2。 
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表 6-2 ”特殊 类 的 类 名 与 主 资源 间 的 对 应 关系 






















参考 的 脚本 名 类 名 主 资 源 
-bin/spark-shell | "org.apache.spark.repl.Main”" "spark-shell" 
./bin/spark-sql "org.apache.spark.sql.hive .thriftserver.SparkSQLCLIDriver" "spark-internal" 
./sbin/start-thriftserver "org.apache.spark.sql.hive.thriftserver.HiveThriftServer2" "spark-internal" 


如 果 有 兴趣 , 可 以 继续 跟踪 SparkClassCommandBuilder 类 的 buildCommand 方法 的 源码 ， 
查看 构建 的 命令 具体 有 哪些 。 

通过 Main 类 的 简单 解析 ， 可 以 将 前 面 的 脚本 分 析 结 果 与 后 面 即将 进行 分 析 的 
SparkSubmit 类 关联 起 来 ， 以 便 进一步 解析 与 应 用 程序 提交 相关 的 其 他 源码 。 

从 前 面 的 脚本 分 析 可 以 看 到 ， 提交 应 用 程序 时 ，Main 启动 的 类 ,也 就 是 用 户 最 终 提交 执 
行 的 类 是 org.apache.spark.deploy.SparkSubmit。 因此 , 下 面 开始 解析 SparkSubmit 相关 的 源码 ， 
包括 提交 行为 的 定义 、 提 交 时 的 参数 解析 以 及 最 终 提交 运行 的 代码 解析 。 


2. SparkSubmitAction 解 析 


SparkSubmitAction 定义 了 提交 应 用 程序 的 行为 类 型 ， 源 码 如 下 所 示 。 
SparkSubmit.scala 的 源码 如 下 。 


1 属 private[deploy] object SparkSubmitAction extends Enumeration { 
2 type SparkSubmitAction = Value 
= val SUBMIT, KILL, REQUEST STATUS = Value 


从 源码 中 可 以 看 到 , 分 别 定义 了 SUBMIT、KILL、REQUEST STATUS 这 3 种 行为 类 型 ， 
对 应 提交 应 用 、 停 止 应 用 、 查 询 应 用 的 状态 。 


3. SparkSubmit 解 析 


SparkSubmit 的 全 路 径 为 org.apache.spark.deploySparkSubmit。 从 SparkSubmit 类 的 注释 
可 以 看 出 ，SparkSubmit 是 启动 一 个 Spark 应 用 程序 的 主 入 口 点 ， 这 和 前 面 从 脚本 分 析 得 到 的 
结论 一 致 。 首 先 看 一 下 SparkSubmit 类 的 注释 ， 如 下 所 示 。 


工 。 /4 

-i * 启 动 一 个 Spark 应 用 程序 的 主 入 口 点 

3 

4. 事 

Bl: * 这 个 程序 处 理 与 Spark 依赖 相关 的 类 路 径 设 置 ， 提 供 Spark 支持 的 在 不 同 集群 管理 器 的 部 
* 署 模式 

6. 六 

a A 


SparkSubmit 会 帮助 我 们 设置 Spark 相关 依赖 包 的 classpath， 同 时 ， 为 了 帮助 用 户 简化 提 
交 应 用 程序 的 复杂 性 ,SparkSubmit 提供 了 一 个 抽象 层 , 封装 了 底层 复杂 的 集群 管理 器 与 部 署 
模式 的 各 种 差异 点 ， 即 通过 SparkSubmit 的 封装 ， 集 群 管理 器 与 部 署 模式 对 用 户 是 透明 的 。 

在 SparkSubmit 中 体现 透明 性 的 集群 管理 器 定义 的 源码 如 下 所 示 。 

SparkSubmit scala 的 源码 如 下 。 


1. // 集 群 管理 器 
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//Cluster managers 

private val YARN = 1 

private val STANDALONE = 2 

private val MESOS = 4 

private val LOCAL = 8 

private val ALL CLUSTER MGRS = YARN | STANDALONE | MESOS | LOCAL 


在 SparkSubmit 中 体现 透明 性 的 部 署 模式 定义 的 源码 如 下 。 


OPODP 


/ /部署 模 式 

//Deploy modes 

private val CLIENT = 1 

private val CLUSTER = 2 

Private val ALL DEPLOY MODES = CLIENT | CLUSTER 


作为 提交 应 用 程序 的 入 口 点 ,SparkSubmit 中 根据 具体 的 集群 管理 器 进行 参数 转换 、 参 数 
校 验 等 操作 ， 如 对 模式 的 检查 ， 代 码 中 给 出 了 针对 特定 情况 ， 不 支持 的 集群 管理 器 与 部 署 模 
式 ， 在 这 些 模式 下 提交 应 用 程序 会 直接 报错 退出 。 

SparkSubmit.scala 的 源码 如 下 。 





Le 


// 不 支持 的 集群 管理 器 与 部 署 模式 


(clusterManager, deployMode) match { 
case (STANDALONE, CLUSTER) if args.isPython => 
printErrorAndExit ("Cluster deploy mode is currently not supported 
for python " +"applications on standalone clusters.") 


case (STANDALONE, CLUSTER) if args.isR => 
printErrorAndExit ("Cluster deploy mode is currently not supported 
for R " +"applications on standalone clusters.") 


case (LOCAL, CLUSTER) => 
printErrorAndExit ("Cluster deploy mode is not compatible with 
master \"local\"") 

case ( , CLUSTER) if isShell (args.primaryResource) => 
printErrorAndExit ("Cluster deploy mode is not applicable to Spark 
shells.") 

case ( , CLUSTER) if isSqlShell (args.mainClass) => 
printErrorAndExit ("Cluster deploy mode is not applicable to Spark 
SQL shell.") 

case ( , CLUSTER) if isThriftServer (args.mainClass) => 
printErrorAndExit ("Cluster deploy mode is not applicable to Spark 
Thrift server.") 

case _ => 


1 














首先 ， 一 个 程序 运行 的 入 口 点 对 应 单 例 对 象 的 main 函数 ， 因 此 在 执行 SparkSubmit 时 ， 
对 应 的 入 口 点 是 objectSparkSubmit 的 main 函数 ， 具 体 代 码 如 下 。 
SparkSubmit scala 的 源码 如 下 。 


1 
2 
Sa 
4 


// 入 口 点 函数 main 的 定义 
def main(args: Array[String]): Unit = { 
Val appArgs = new SparkSubmitArguments (args) 
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5. ”// 根 据 3 种 行为 分 别 进行 处 理 
6. appArgs.action match { 


3 case SparkSubmitAction.SUBMIT => submit (appArgs) 

8> case SparkSubmitAction.KILL => kill (appArgs) 

9 case SparkSubmitAction.REQUEST STATUS =>requestStatus (appArgs) 
10. } 

Ek 


其 中 ，SparkSubmitArguments 类 对 应 用 户 调用 提交 脚本 spark-submit 时 传 入 的 参数 信息 。 
对 应 的 脚本 的 帮助 信息 (./bin/spark-submit --help)， 也 是 由 该 类 的 printUsageAndExit 方法 提 
供 的 。 

找到 上 面 的 入 口 点 代码 之 后 ， 就 可 以 开始 分 析 其 内 部 的 源码 。 对 应 参数 信息 的 
SparkSubmitArguments 可 以 参考 脚本 的 帮助 信息 , 来 查看 具体 参数 对 应 的 含义 。 参 数 分 析 后 ， 
便 是 对 各 种 提交 行为 的 具体 处 理 。SparkSubmit 支持 SparkSubmitAction 包含 的 3 种 行为 ， 下 
面 以 行为 SparkSubmitAction.SUBMIT 为 例 进行 分 析 , 其 他 行为 也 可 以 通过 各 自 的 具体 处 理 代 
码 进行 分 析 。 
对 应 处 理 SparkSubmitAction.SUBMIT 行为 的 代码 入 口 点 为 submit(appArgs)， 进 入 该 方 
即 进入 提交 应 用 程序 的 处 理 方法 的 具体 代码 如 下 所 示 。 
SparkSubmit.scala 的 源码 如 下 。 


法 


1 private def submit (args: SparkSubmitArguments): Unit = { 

2. ”// 准 备 应 用 程序 提交 的 环境 ， 该 步骤 包含 了 内 部 封装 的 各 个 细节 处 理 

加 val (childArgs, childClasspath, sysProps, childMainClass) = 
prepareSubmitEnvironment (args) 





4. 

CT def doRunMain(): Unit = { 

| if (args.proxyUser != null) { 
六 中 val proxyUser = UserGroupInformation.createProxyUser 

(args .proxyUser,UserGroupInformation.getCurrentUser () ) 

8. 

9. try 4 

OE proxyUser .doAs (new PrivilegedExceptionAction[Unit] () { 

Ls override def run(): Unit = { 

2 runMain (childArgs, childClasspath, sysProps, childMainClass, 

args .Verbose) 

= } 

14. }) 

5 ycatch 

6. case e: Exception => 

刀 府 //hadoop 的 AuthorizationException 抑制 异常 堆栈 跟踪 ， 通 过 JVM 打印 输 

// 出 的 消息 不 是 很 有 帮助 。 这 里 检测 异常 以 及 空 栈 ， 对 其 采用 不 同 的 处 理 

8 . if (e.getStackTrace () .length == 0) { 

3 //scalastyle:off println 
20 printSstream.println (s"ERROR: ${e.getClass () .getName () }: 

${e.getMessage () }") 

21% //scalastyle:on println 
2 exitFn (1) 
3 } else { 
2 throw e 
Ze } 
20% 
Va fe } else { 
28. runMain(childArgs, childClasspath, sysProps, childMainClass, 


args .verbose) 


。206 。 
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54. | 


} 


//Standalone 集群 模式 下 ， 有 两 种 提交 应 用 程序 的 方式 
//1 .传统 的 RPC 网 关 方 式 使 用 o.a.s.deploy .Client 进行 封装 
//2.Spark 1.3 使 用 新 REST-based 网 关 方 式 ,作为 Spark 1.3 的 默认 方法 ,如 果 Master 
// 节 点 不 是 REST 服务 器 节点 ，Spark 应 用 程序 提交 时 会 切换 到 传统 的 网 关 模 式 
if (args.isStandaloneCluster && args.useRest) { 
try { 
//scalastyle:off println 
printstream.println("Running Spark using the REST application 
submission protocol.") 
//scalastyle:on println 
doRunMain () 
Peateh .tf 
// 如 果 失 败 ， 则 使 用 传统 的 提交 方式 
case e: SubmitRestConnectionException => 
printWarning(s"Master endpoint S${args.master} was not a REST 
server. "+ "Falling back to legacy submission gateway instead.") 


// 重 新 设置 提交 方式 的 控制 开关 
args.useRest = false 
submit (args) 


3. 
// 在 所 有 其 他 模式 中 ， 只 要 准备 好 主 类 就 可 以 
} else { 

doRunMain () 
} 


其 中 ， 最 终 运 行 所 需 的 参数 都 由 prepareSubmitEnvironment 方法 负责 解析 、 转 换 ， 然 后 
根据 其 结果 执行 。 解 析 的 结果 包含 以 下 4 部 分 。 
口 子 进程 运行 所 需 的 参数 。 


口 子 进 


FE 程 运 行 时 的 classpath 列表 。 


口 系统 属性 的 映射 。 


口 子 过 





[ 程 运行 时 的 主 类 。 


解析 之 后 调用 mnMain 方法 ， 该 方法 中 除了 一 些 环境 设置 等 操作 外 ， 最 终 会 调用 解析 得 
到 的 childMainClass 的 main 方法 。 下 面 简单 分 析 一 下 prepareSubmitEnvironment 方法 ， 通 过 





该 方法 来 了 





办 SparkSubmit 是 如 何 帮助 底层 的 集群 管理 器 和 部 署 模式 的 封装 的 。 里 面 涉及 的 


各 种 细节 比较 多 ， 这 里 以 不 同 集群 管理 器 和 部 署 模式 下 最 终 运 行 的 childMainClass 类 的 解析 
为 主线 进行 分 析 。 
(1) 当 部 署 模式 为 CLIENT 时 ， 将 childMainClass 设置 为 传 入 的 mainClass， 对 应 代码 如 


下 所 示 。 


1 
有 
3 
4. 
加 
6 
. 
8 


// 在 CLIENT 模式 下 ， 直 接 启动 应 用 程序 的 主 类 


if (deployMode == CLIENT || isYarnCluster) { 


childMainClass = args.mainClass 
if (isUserJar(args.primaryResource)) { 
childClasspath += args.primaryResource 
上 
if (args.jars != null) { childClasspath ++= args.jars.split(",") } 
} 


“Mis 
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9. 

0 if (deployMode == CLIENT) { 

if (args.childArgs != null) { childArgs ++= args.childArgs } 
2 | 


(2) 当 集 群 管理 器 为 STANDALONE、 部 署 模式 为 CLUSTER 时 ， 根 据 提交 的 两 种 方式 
将 childMainClass 分 别 设置 为 不 同 的 类 ， 同 时 将 传 入 的 argsmainClass《〈 提 交 应 用 程序 时 设置 
的 主 类 ) 及 其 参数 根据 不 同 集群 管理 器 与 部 署 模式 进行 转换 ， 并 封装 到 新 的 主 类 所 需 的 参数 
中 。 对 应 的 设置 见 表 6-3。 

表 6-3 STANDALONE+CLUSTER 时 两 种 不 同 提交 方式 下 的 childMainClass 封 装 
提交 方式 childMainClass 
REST 方式 (Spark 1.3+) "org.apache.spark.deploy .rest.RestSubmissionClient" 
传统 方式 "org.apache.spark.deploy.Client" 











其 中 ， 表 述 性 状态 传递 (Representational State Transfer，REST) 是 Roy Fielding 博士 在 
2000 年 他 的 博士 论文 中 提出 来 的 一 种 软件 架构 风格 。 

这 些 设 置 的 主 类 相当 于 封装 了 应 用 程序 提交 时 的 主 类 , 运行 后 负责 向 Master 节点 申请 启 
动 提 交 的 应 用 程序 。 

(3) 当 集 群 管理 器 为 YARN、 部 署 模式 为 CLUSTER 时 ，childMainClass 以 及 对 应 的 
mainClass 的 设置 见 表 6-4。 


表 6-4 YARN+CLUSTER 时 childMainClass 下 的 childMainClass 封 装 


搞 行 对 往 被 封 甘 的 执行 主 类 CmainClas) 


isPython "org.apache.spark.deploy.PythonRunner" 


"org.apache.spark.deploy.yarn.Client" "org.apache.spark.deploy.RRunner" 
args.mainClass 





(4) 当 集 群 管理 器 为 MESOS、 部 署 模式 为 CLUSTER 时 ，childMainClass 以 及 对 应 的 
mainClass 的 设置 见 表 6-5。 


表 6-5 MESOS+CLUSTER 时 childMainClass 下 的 childMainClass 封 装 
执行 对 象 childMainClass 被 封装 的 执行 主 类 (mainClass) 


isPython 
其 他 


从 上 面 的 分 析 中 可 以 看 到 ， 使 用 CLIENT 部 署 模式 进行 提交 时 ， 由 于 设置 的 
childMainClass 为 应 用 程序 提交 时 的 主 类 ， 因 此 是 直接 在 提交 点 执行 设置 的 主 类 ， 即 
mainClass， 当 使 用 CLUSTER 部 署 模式 进行 提交 时 ， 则 会 根据 具体 集群 管理 器 等 信息 ， 使 用 
相应 的 封装 类 。 这 些 封装 类 会 向 集群 申请 提交 应 用 程序 的 请 求 ， 然 后 在 由 集群 调度 分 配 得 到 
的 节点 上 ， 启 动 所 申请 的 应 用 程序 。 

以 封装 类 设置 为 org.apache.spark.deploy.Client 为 例 ， 从 该 类 主 入 口 main 方法 查看 , 可 以 
看 到 构建 了 一 个 ClientEndpoint 实例 ， 该 实例 构建 时 ， 会 将 提交 应 用 程序 时 设置 的 mainClass 
等 信息 封装 到 DriverDescription 实例 中 , 然后 发 送 到 Master， 申 请 执行 用 户 提交 的 应 用 程序 。 

对 应 各 种 集群 管理 器 与 部 署 模式 的 组 合 ， 实 际 代码 中 的 处 理 细 节 非 常 多 。 这 里 仅 给 出 一 
种 源码 阅读 的 方式 ， 和 对 应 的 大 数据 处 理 一 样 , 通常 采用 化 繁 为 简 的 方式 去 阅读 复杂 的 源码 。 


“Ne 





mm 





"org.apache.spark.deploy.rest.RestSubmissionClient" 


args.mainClass 


















































第 6 章 Spark Application 提交 给 集群 的 原理 和 源码 详解 








例如 ， 这 里 在 理解 整个 大 框架 的 调用 过 程 后 ， 以 childMainClass 的 设置 作为 主线 去 解读 源码 ， 
对 应 地 ， 在 扩展 阅读 其 他 源码 时 ， 也 可 以 采用 这 种 方式 ， 以 某 种 集群 管理 器 与 部 署 模式 为 主 
线 ， 详 细 阅 读 相 关 的 代码 。 最 后 ， 在 了 解 各 种 组 合 的 处 理 细 节 之 后 ， 通 过 对 比 、 抽 象 等 方法 ， 
对 整个 SparkSubmit 进行 归纳 总 结 。 

提交 的 应 用 程序 的 驱动 程序 (Driver Program) 部 分 对 应 包含 了 一 个 SparkContext 实例 。 
因此 ， 接 下 来 从 该 实例 出 发 ， 解 析 驱 动 程序 在 不 同 的 集群 管理 器 的 部 署 细节 。 


4. SparkContext 解 析 























在 详细 解析 SparkContext 实例 前 ， 首 先 查看 一 下 SparkContext 类 的 注释 部 分 ， 具 体 如 下 
所 示 。 

TR 

3 * Spark 功能 的 主 入 口 点 。 一 个 SparkContext 代表 连接 到 Spark 集群 ， 并 可 用 于 在 集群 中 


* 创建 RDDs、 累 加 器 和 广播 变量 
< a 
4. ”* @param 描述 应 用 程序 配置 的 配置 对 象 。 在 该 配置 的 任何 设置 将 履 盖 默 认 的 配置 以 及 系统 属性 
Se 


SparkContext 类 是 Spark 功能 的 主 入 口 点 。 一 个 SparkContext 实例 代表 了 与 一 个 Spark 
集群 的 连接 , 并 且 通 过 该 实例 , 可 以 在 集群 中 构建 RDDs、 累 加 器 以 及 广播 变量 。SparkContext 
实例 的 构建 参数 config 描述 了 应 用 程序 的 Spark 配置 。 在 该 参数 中 指定 的 配置 属性 会 覆盖 默 
认 的 配置 属性 以 及 系统 属性 。 

在 SparkContext 类 文件 中 定义 了 一 个 描述 集群 管理 器 类 型 的 单 例 对 象 SparkMasterRegex, 在 
该 对 象 中 详细 给 出 了 当前 Spark 支持 的 各 种 集群 管理 器 类 型 。 

SparkContext.scala 的 源码 如 下 。 





I /4 

2. * 定义 了 从 Master 信息 中 抽取 集群 管理 器 类 型 的 一 个 正则 表达 式 集合 

区 二 只 

4. */ 

5. private object SparkMasterRegex { 

6. // 对 应 Master 格式 如 local [IN] 和 1local [*] 的 正则 表达 式 

7. ”// 对 应 的 Master 格式 如 local[N] 和 local [*] 的 正则 表达 式 

8. val LOCAL N REGEX = """local\[([0-9]+I\*)\]""".r 

9 

10. // 对 应 的 Master 格式 如 local [IN，maxRetries] 的 正则 表达 式 

11. // 这 种 集群 管理 器 类 型 用 于 具有 任务 失败 尝试 功能 的 测试 

El 

13. val LOCAL N FAILURES REGEX = """local\[([0-9]+|\*)\s*, \s#([0-9]+)\]""".r 

14. 

15. // 一 种 模拟 Spark 集群 的 本 地 模式 的 正则 表达 式 ,对 应 的 Master 格式 如 local-cluster[N， 

16. //cores, memory] 

HL 

二 LOCAL CLUSTER REGEX = """]ocal-cluster\ 
[NXss(L0=91+) NserNssK[O=9] 十 ) \s*, \s* 
A al 

LE 

20. // 连 接 Spark 部 署 集群 的 正则 表达 式 

21: 


1 
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22. val SPARK REGEX = """spark://(-.*)""".r 
2 


在 SparkContext 类 中 的 主要 流程 可 以 归纳 如 下 : 
(1) createSparkEnv: 创建 Spark 的 执行 环境 对 应 的 SparkEnv 实例 。 
对 应 代码 如 下 所 示 。 


-| //Create the Spark execution environment (cache, map output tracker, 
//etc) 
25 _env = createSparkEnv( conf, isLocal, listenerBus) 


3. SparkEnv.set( env) 


(2) createTaskScheduler: 创建 作业 调度 器 实例 。 

对 应 代码 如 下 所 示 。 

1. // 创 建 和 启动 调度 器 scheduler 

2. val (sched, ts) = SparkContext.createTaskScheduler (this, master) 

< schedulerBackend = sched 

4. _taskScheduler = ts 

其 中 ，TaskScheduler 是 低层 次 的 任务 调度 器 ， 负 责任 务 的 调度 。 通 过 该 接口 提供 可 插 拔 
的 任务 调度 器 。 每 个 TaskScheduler 负责 调度 一 个 SparkContext 实例 中 的 任务 ， 负 责 调度 上 层 
DAG 调度 器 中 每 个 Stage 提交 的 任务 集 (TaskSet)， 并 将 这 些 任 务 提 交 到 集群 中 运行 ， 在 任 
务 提交 执行 时 ， 可 以 使 用 失败 重 试 机 制 设置 失败 重 试 的 次 数 。 上 述 对 应 高 层 的 DAG 调度 器 
的 实例 构建 参见 下 一 步 。 

(3) new DAGScheduler: 创建 高 层 Stage 调度 的 DAG 调度 器 实例 。 

对 应 代码 如 下 。 


1. _dagScheduler = new DAGScheduler (this) 


DAGScheduler 是 高 层 调度 模块 ， 负 责 作 业 (Job) 的 Stage 拆 分 ， 以 及 最 终 将 Stage 对 应 
的 任务 集 提 交 到 低层 次 的 任务 调度 器 上 。 

下 面 基 于 这 些 主要 流程 , 针对 SparkMasterRegex 单 例 对 象 中 给 出 的 各 种 集群 部 署 模式 进 
行 解析 。 对 应 不 同 集群 模式 ， 这 些 流程 中 构建 了 包括 TaskScheduler 与 SchedulerBackend 的 不 
同 的 具体 子 类 ， 所 构建 的 相关 实例 具体 见 表 6-6。 


表 6-6 各 种 情况 下 TaskScheduler 与 SchedulerBackend 的 不 同 的 具体 子 类 


部 署 模 式 (Master) 实例 对 应 的 类 备 注 
最 简单 的 本 地 模式 
"local" 这 种 本 地 模式 下 , 任务 的 失败 重 试 次 数 为 


1， 即 失败 不 重 试 
指定 线程 个 数 的 本 地 模式 , 指定 方式 及 最 
终 的 线程 数 如 下 : 
_taskScheduler: TaskSchedulerImpl | @) local[*]: 当前 处 理 器 个 数 
_schedulerBackend: LocalBackend | @ local[N]: 指定 的 N 
这 种 本 地 模式 下 , 任务 的 失败 重 试 次 数 为 
1， 即 失败 不 重 试 
ii 指定 线程 个 数 以 及 失败 重 试 次 数 的 本 地 
模式 , 仅 比 上 一 种 本 地 模式 多 了 一 个 失败 
ioeallN- MM 重 试 次 数 的 设置 ， 对 应 为 M 








local[*]、local[N] 
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部 署 模式 (Master) 


实例 对 应 的 类 


续 表 
备 注 





local-cluster[numSlaves, 


coresPerSlave, 


memoryPerSlave] 


Spark Standalone 


YARN Client 


YARN Cluster 


_taskScheduler: TaskSchedulerImpl 
_schedulerBackend: 
StandaloneSchedulerBackend 


_taskScheduler: YarmScheduler 
_schedulerBackend: 
YamClientSchedulerBackend 
_taskScheduler: YamClusterScheduler 
_schedulerBackend: 
YamClusterSchedulerBackend 





本 地 伪 分 布 式 集群 , 由 于 本 地 模式 下 没有 
集群 , 因此 需要 构建 一 个 用 于 模拟 集群 的 
实例 : localCluster=new 

LocalSparkChuster 

对 应 的 3 个 参数 为 

numSlaves: 模拟 集群 的 Slave 节点 个 数 。 
coresPerSlave: 模拟 集群 的 各 个 Slave 节 
点 上 的 内 核 数 。 

memoryPerSlave: 模拟 集群 的 各 个 Slave 
节点 上 的 内 存 大 小 








Spark Standalone 对 应 Spark 原生 的 完全 
分 布 式 集群 因此 , 此 种 方式 下 不 需要 像 上 
面 的 本 地 伪 分 布 式 集群 那样 , 构建 一 个 虚 
拟 的 本 地 集群 


YARN 集群 管理 器 + Client 部 署 


YARN 集群 管理 器 + Cluster 部 署 


与 TaskScheduler 和 SchedulerBackend 不 同 的 是 , 在 不 同 集群 模式 中 , 应 用 程序 的 高 层 调 
度 器 DAGScheduler 的 实例 是 相同 的 ， 即 对 应 在 Spark on YARN 与 Mesos 等 集群 管理 器 中 ， 
应 用 程序 内 部 的 高 层 Stage 调度 是 相同 的 。 


6.2 Spark Application 是 如 何 向 集群 申请 资源 的 


本 节 讲 解 Application 申请 资源 的 两 种 类 型 : 第 一 种 是 尽 可 能 在 集群 的 所 有 Worker 上 分 
配 Executor; 第 二 种 是 运行 在 尽 可 能 少 的 Worker 上 。 本 节 讲 解 Application 申请 资源 的 源码 
内 容 ， 将 彻底 解密 Spark Application 是 如 何 向 集群 申请 资源 的 。 


6.2.1 Application 申请 资源 的 两 种 类 型 详解 


Master 负责 资源 管理 和 调度 。 资 源 调度 的 方法 schedule 位 于 Masterscala 类 中 ， 当 注册 





程序 或 者 资源 发 生 改 变 时 ， 都 会 导致 schedule 的 调用 。Schedule 调用 的 时 机 : 每 次 有 新 的 
用 程序 提交 或 者 集群 资源 状况 发 生 改 变 时 (包括 Executor 增加 或 者 减少 、Worker 增加 或 者 





少 等 )。 


Spark 默认 为 应 用 程序 启动 Executor 的 方式 是 FIFO 的 方式 , 也 就 是 所 有 提交 的 应 用 程序 


总 加 














都 放 在 调度 的 等 待 队 列 中 ， 先 进 先 出 ， 只 有 在 满足 了 前 面 应 用 程序 的 资源 分 配 的 基础 上 ， 才 
能 够 满足 下 一 个 应 用 程序 资源 的 分 配 ; 在 FIFO 的 情况 下 , 默认 是 spreadOutApps 来 让 应 用 程 
序 尽 可 能 多 地 运行 在 所 有 的 Node 上 。 为 应 用 程序 分 配 Executors 有 两 种 方式 : 第 一 种 方式 是 


a 
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尽 可 能 在 集群 的 所 有 Worker 上 分 配 Executor, 这 种 方式 往往 会 带 来 潜在 的 、 更 好 的 数据 本 地 
性 ; 第 二 种 方式 是 尝试 运行 在 尽 可 能 少 的 Worker 上 。 
为 了 更 形象 地 描述 Master 的 调度 机 制 ， 下 面 通过 图 6-1 介绍 抽象 的 资源 调度 框架 。 


根据 需求 委 选 : Pf 
排序 : 根据 可 用 内 核 数 ， 从 大 到 小 
1. spreadOutApps=true 2. spreadOutApps=false 








2. 依次 全 占 策 略 





图 6-1 Master 中 抽象 的 资源 调度 框架 


其 中 ，Workerl 到 WorkerN 是 集群 中 全 部 的 Workers 节点 ， 调 度 时 ， 会 根据 应 用 程序 请 
求 的 资源 信息 ， 从 全 部 Workers 节点 中 过 滤 出 资源 足够 的 节点 ， 假 设 可 以 得 到 Workerl 到 
WorkerM 的 节点 。 当 前 过 滤 的 需求 是 内 核 数 和 内 存 大 小 足够 启动 一 个 Executor, 因为 Executor 
是 集群 执行 应 用 程序 的 单位 组 件 〈 注 意 : 和 任务 〈Task) 不 是 同一 个 概念 ， 对 应 的 任务 是 在 
Executor 中 执行 的 )。 

选 出 可 用 Workers 之 后 ， 会 根据 内 核 大 小 进行 排序 ， 这 可 以 理解 成 是 一 种 基于 可 用 内 核 
排序 的 、 简 单 的 负载 均衡 策略 。 然 后 根据 设置 的 spreadOutApps 参数 ， 对 应 指定 两 种 资源 分 
配 策略 。 

(1) 当 spreadOutApps=true: 使 用 轮流 均 摊 的 策略 ， 也 就 是 采用 圆桌 (round-robin) 算法 ， 
图 中 的 虚线 表示 第 一 次 轮流 摊派 的 资源 不 足以 满足 申请 的 需求 ， 因 此 开始 第 二 轮 摊派 ， 依 次 
轮流 均 扒 ， 直到 符合 资源 需求 。 

(2) 当 spreadOutApps=false: 使 用 依次 全 占 策略 ， 依 次 从 可 用 Workers 上 获取 该 Worker 
上 可 用 的 全 部 资源 ， 直 到 符合 资源 需求 。 

对 应 图 中 Worker 内 部 的 小 方块 ,在 此 表示 分 配 的 资源 的 抽象 单位 。 对 应 资源 的 条 件 ， 理 
解 的 关键 点 在 于 资源 是 分 配给 Executor 的 ， 因 此 最 终 启 动 Executor 时 ， 占 用 的 资源 必须 满足 
启动 所 需 的 条 件 。 

前 面 描述 了 Workers 上 的 资源 是 如 何 分 配给 应 用 程序 的 ， 之 后 正式 开始 为 Executor 分 配 
资源 ,并 向 Worker 发 送 启动 Executor 的 命令 了 。 根 据 申请 时 是 否 明确 指定 需要 为 每 个 Executor 
分 配 确 定 的 内 核 个 数 ， 有 : 

(1) 明确 指定 每 个 Executor 需要 分 配 的 内 核 个 数 时 : 每 次 分 配 的 是 一 个 Executor 所 需 的 
内 核 数 和 内 存 数 ， 对 应 在 某 个 Worker 分 配 到 的 总 的 内 核 数 可 能 是 Executor 的 内 核 数 的 倍数 ， 
此 时 ,该 Worker 节点 上 会 启动 多 个 Executor， 每 个 Executor 需要 指定 的 内 核 数 和 内 存 数 ( 注 
意 该 Worker 节点 上 分 配 到 的 总 的 内 存 大 小 )。 

(2) 未 明确 指定 每 个 Executor 需要 分 配 的 内 核 个 数 时 : 每 次 分 配 一 个 内 核 ， 最 后 所 有 在 
某 Worker 节点 上 分 配 到 的 内 核 都 会 放 到 一 个 Executor 内 (未 明确 指定 内 核 个 数 ， 因 此 可 以 
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一 起 放 入 一 个 Executor)。 因 此 ， 最 终 该 应 用 程序 在 一 个 Worker 上 只 有 一 个 Executor (这 里 
指 的 是 针对 一 个 应 用 程序 ， 当 该 Worker 节点 上 存在 多 个 应 用 程序 时 , 仍然 会 为 每 个 应 用 程序 
分 别 启动 相应 的 Executor)。 

在 此 强调 、 补 充 一 下 调度 机 制 中 使 用 的 三 个 重要 的 配置 属性 。 

a. 指定 为 所 有 Executors 分 配 的 总 内 核 个 数 : 在 spark-submit 脚本 提交 参数 时 进行 配置 。 
所 有 Executors 分 配 的 总 内 核 个 数 的 控制 属性 在 类 SparkSubmitArguments 的 方法 
printUsageAndExit 中 。 

1. // 指 定 为 所 有 Executors 分 配 的 总 内 核 个 数 

2. | Spark standalone and Mesos only: 

3. 1 --total-executor-cores NUM Total cores for all executors. 

b. 指定 需要 为 每 个 Executor 分 配 的 内 核 个 数 :在 spark-submit 脚本 提交 参数 时 进行 配置 。 
每 个 Executor 分 配 的 内 核 个 数 的 控制 属性 在 类 SparkSubmitArguments 的 方法 
printUsageAndExit 中 。 

SparkSubmitArguments.scala 的 源码 如 下 。 


1. // 指定 需要 为 每 个 Executor 分 配 的 内 核 个 数 








2. || Spark standalone and YARN only: 

3. | --executor-cores NUM Number of cores per executor. (Default: 1 
in YARN mode, 

局 or all available cores on the worker in standalone mode) 


c. 资源 分 配 策略 : 数据 本 地 性 (数据 密集 ) 与 计算 密集 的 控制 属性 ， 对 应 的 配置 属性 在 
Master 类 中 ， 代 码 如 下 。 


:be private val spreadOutApps = conf.getBoolean("spark.deploy.spreadout", 
true) 


6.2.2 Application 申请 资源 的 源码 详解 


1. 任务 调度 与 资源 调度 的 区 别 


口 任务 调度 是 通过 DAGScheduler、TaskScheduler、SchedulerBackend 等 进行 的 作业 
调度 。 

口 资源 调度 是 指 应 用 程序 如 何 获得 资源 。 

口 任务 调度 是 在 资源 调度 的 基础 上 进行 的 ， 如 果 没 有 资源 调度 ， 任 务 调度 就 成 为 无 源 
之 水 ， 无 本 之 木 。 

2. 资源 调度 内 幕 


(1) 因为 Master 负责 资源 管理 和 调度 ， 所 以 资源 调度 的 方法 shedule 位 于 Master.scala 
类 中 ， 注 册 程 序 或 者 资源 发 生 改 变 时 都 会 导致 shedule 的 调用 ， 如 注册 程序 时 : 


了 < case RegisterApplication(description, driver) => 
// 待 办 事项 : 防止 重复 注册 Driver 
if (state == RecoveryState.STANDBY) { 
// 忽 略 ， 不 要 发 送 响应 
} else { 
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6 logInfo ("Registering app " + description.name) 

ya val app = createApplication (description, driver) 

8. registerApplication (app) 

9 logInfo ("Registered app " + description.name + " with ID "+ app.id) 
10. persistenceEngine.addApplication (app) 

人 driver.send (RegisteredApplication(app.id, self)) 

2 schedule() 

33。 ， 


(2) Schedule 调用 的 时 机 : 每 次 有 新 的 应 用 程序 提交 或 者 集群 资源 状况 发 生 改 变 的 时 候 
(包括 Executor 增加 或 者 减少 、Worker 增加 或 者 减少 等 ) 。 

进入 schedule0，schedule 为 当前 等 待 的 应 用 程序 分 配 可 用 的 资源 。 每 当 一 个 新 的 应 用 程 
序 进来 时 ，schedule 都 会 被 调用 。 或 者 资源 发 生变 化 时 〈 如 Executor 挂 掉 ，Weorker 挂 掉 , 或 
者 新 增加 机 器 ) ，schedule 都 会 被 调用 。 

(3) 当前 Master 必须 以 ALIVE 的 方式 进行 资源 调度 ， 如 果 不 是 ALIVE 的 状态 ， 就 会 直 
接 返回 ， 也 就 是 Standby Master 不 会 进行 Application 的 资源 调用 。 





si 卫 if (state != RecoveryState.ALIVE) { 
这 return 
Ss } 


(4) 接 下 来 通过 workers.toSeq.filter(_.state 一 WorkerState.ALIVE) 过 滤 判 断 所 有 Worker 
中 哪些 是 ALIVE 级 别 的 Worker，ALIVE 才能 够 参与 资源 的 分 配 工作 。 


:> val shuffledAliveWorkers =Random.shuffle (workers.toSeq.filter( .state 
== WorkerState.ALIVE)) 


(5) 使 用 Random.shuffle 把 Master 中 保留 的 集群 中 所 有 ALIVE 级 别 的 Worker 的 信息 随 
机 打 乱 Master 的 schedule0 方 法 中 : workers 是 一 个 数据 结构 ， 打 乱 workers 有 利于 负载 均 
衡 。 例 如 ， 不 是 以 固定 的 顺序 启动 launchDriver。WorkerInfo 是 Worker 注册 时 将 信息 注册 过 来 。 
Val workers = new HashSet [WorkerInfo] 


入 > val shuffledAliveWorkers = Random.shuffle (workers .toSeq.-filter( .state 
== WorkerState.ALIVE) ) 


WorkerInfo.scala 的 源码 如 下 。 


ek private[spark] class WorkerInfo( 
光 val id: String, 

3 val host: String, 

4. val port: Int， 

5 val cores: Int, 

6 val memory: Int, 

7 val endpoint: RpcEndpointRef, 
8 val webUiAddress: String) 

9 extends Serializable { 


随机 打 乱 的 算法 : 将 Worker 的 信息 传 进来 ， 先 调用 newO 函 数 创建 一 个 ArayBuffer, 将 
所 有 的 信息 放 进 去 。 然 后 将 两 个 索引 位 置 的 内 容 进行 交换 。 例 如 ， 如 果 有 4 个 Worker， 依 次 
分 别 为 第 一 个 Worker 至 第 四 个 Worker， 第 一 个 位 置 是 第 1 个 Worker, 第 2 个 位 置 是 第 2 个 
Worker， 第 3 个 位 置 是 第 3 个 Worker， 第 4 个 位 置 是 第 4 个 Worker; 通过 Shuffle 以 后 ， 现 
在 第 一 个 位 置 可 能 是 第 3 个 Worker， 第 2 个 位 置 可 能 是 第 1 个 Worker， 第 3 个 位 置 可 能 是 
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第 4 个 Worker， 第 4 个 位 置 可 能 是 第 2 个 Worker， 位 置信 息 打 乱 。 
Random_ scala 中 的 shuffle 方法 ， 其 算法 内 部 是 循环 随机 交换 所 有 Worker 在 Master 缓存 
数据 结构 中 的 位 置 。 


了 def shuffle[T, CC[X] <: TraversableOnce[X]] (xs: CCI[T]) (implicit bf: 
CanBuildFrom[CC[T], T, CCI[T]]): CC[T)] = { 

3 val buf = new ArrayBuffer[T] ++= xs 

芭 后 

4. def swap(il: Int, i2: Int) { 

5 val tmp = buf(il) 

65 buf (i1) = buf (i2) 

多 buf (i2) = tmp 

8. } 

9 

0 Eor (n. <= buf.length to 2 by =1) 1{ 

:hh val k = nextInt (n) 

全 swap(n - 1, k) 

135 } 

14. 

:让 局 (bf (xs) ++= buf) .result 

下 


(6) Master 的 schedule(0) 方 法 中 : 循环 遍历 等 待 启动 的 Driver， 如 果 是 Client 模式 ， 就 不 
需要 waitingDrivers 等 待 ， 如 果 是 Cluster 模式 ， 此 时 Driver 会 加 入 waitingDrivers 等 待 列表 。 

当 SparkSubmit 指定 Driver 在 Cluster 模式 的 情况 下 ， 此 时 Driver 会 加 入 waitingDrivers 
等 待 列表 中 , 在 每 个 DriverInfo 的 DriverDescription 中 有 要 启动 Driver 时 对 Worker 的 内 存 及 
Cores 的 要 求 等 内 容 。 


1. private val waitingDrivers = new ArrayBuffer [DriverInfo] 


DriverInfo 包括 启动 时 间 、ID、 描 述 信息 、 提 交 时 间 等 内 容 。 
DriverInfo.scala 的 源码 如 下 。 


private[deploy] class DriverInfo( 
val startTime: Long, 
val id: String, 
val desc: DriverDescription, 
val submitDate: Date) 

extends Serializable { 


Go 必 s wp 


其 中 ，DriverInfo 的 DriverDescription 描述 信息 中 包括 jarUrl、 内 存 、Cores、supervise、 
command 等 内 容 。 如 果 在 Cluster 模式 中 指定 supervise 为 True， 那 么 Driver 挂 掉 时 就 会 自动 
重启 。 

DriverDescription.scala 的 源码 如 下 。 
private[deploy] case class DriverDescription( 

Tardrls String 
mem: Int, 
corea:™ Inty 


supervise: Boolean, 
二 command: Command) { 


在 符合 资源 要 求 的 情况 下 ,采用 随机 打 乱 后 的 一 个 Worker 来 启动 Driver, worker 是 Master 


Cn 心 wN 


二 汪汪 
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中 对 Worker 的 一 个 描述 。 
Master.scala 的 launchDriver 方法 如 下 。 


private def launchDriver (worker: WorkerInfo, driver: DriverInfo) { 
2 logInfo("Launching driver " + driver.id + " on worker " + worker.id) 
< 信 worker .addDriver (driver) 

4. driver.worker = Some (worker) 

SS worker .endpoint.send(LaunchDriver (driver.id, driver.desc)) 

6 driver.state = DriverState-RUNNING 

a } 


Master 通过 worker.endpoint.send(LaunchDriver) 发 指令 给 Worker， 让 远程 的 Worker 启动 
Driver，Driver 启动 以 后 ，Driver 的 状态 就 变 成 DriverState.RUNNING。 

(7) 先 启动 Driver， 才 会 发 生 后 续 的 一 切 资源 调度 的 模式 。 

(8) Spark 默认 为 应 用 程序 启动 Executor 的 方式 是 FIFO 方式 , 也 就 是 所 有 提交 的 应 用 程 
序 都 是 放 在 调度 的 等 待 队 列 中 的 ， 先 进 先 出 ， 只 有 满足 了 前 面 应 用 程序 的 资源 分 配 的 基础 ， 
才能 够 满足 下 一 个 应 用 程序 资源 的 分 配 。 

Master 的 schedule(0 方 法 中 ， 调 用 startExecutorsOnWorkers() 为 当前 的 程序 调度 和 启动 
Worker 的 Executor， 默 认 情况 下 排队 的 方式 是 FIFO。 

startExecutorsOnWorkers 的 源码 如 下 。 


:| private def startExecutorsOnWorkers () : Unit = { 
2 // 这 是 一 个 非常 简单 的 FIFO 调度 。 我 们 尝试 在 队列 中 推 入 第 一 个 应 用 程序 ， 然 后 推 入 第 二 
// 个 应 用 程序 等 
号 for (app <- waitingApps if app.coresLeft > 0) { 
4. Val coresPerExecutor: Option[Int] = app.desc.coresPerExecutor 
SE // 筛 选 出 workers， 其 没有 足够 资源 来 启动 Executor 
6 val usableWorkers = workers.toArray.filter( .state == WorkerState 
.ALIVE) 
.filter (worker => worker.memoryFree >= app.desc 
.memoryPerExecutorMB && 
8 worker .coresFree >= coresPerExecutor.getOrElse(1)) 
9. .SortBy(_.coresFree) .reverse 
Ds val assignedCores = scheduleExecutorsOnWorkers (app, usableWorkers, 
spreadOoutApps) 
1 
2 // 现 在 我 们 决定 每 个 worker 分 配 多 少 cores， 进 行 分 配 
De for (pos <- 0 until usableWorkers.length if assignedCores(pos) > 0) { 
14. allocateWorkerResourceToExecutors ( 
有 app, assignedCores (pos), coresPerExecutor, usableWorkers (pos)) 
16. } 
了 了 } 
Bi 








(9) 为 应 用 程序 具体 分 配 Executor 前 要 判断 应 用 程序 是 否 还 需要 分 配 Core, 如 果 不 需 要 ， 
则 不 会 为 应 用 程序 分 配 Executor。 

startExecutorsOnWorkers 中 的 coresLeft 是 请 求 的 requestedCores 和 可 用 的 coresGranted 
的 相 减 值 。 例 如 ， 如 果 整 个 程序 要 求 1000 个 Cores， 但 是 目前 集群 可 用 的 只 有 100 个 Cores， 
如 果 coresLeft 不 为 0， 就 放 入 等 待 队列 中 ; 如果 coresLeft 是 0， 那 么 就 不 需要 调度 。 


:I private[master] def coresLeft: Int = requestedCores - coresGranted 








(10) Master.scala 的 startExecutorsOnWorkers 中 ， 具 体 分 配 Executor 之 前 ， 要 求 Worker 
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必须 是 ALIVE 的 状态 且 必 须 满 足 Application 对 每 个 Executor 的 内 存 和 Cores 的 要 求 ， 并 且 





在 此 基础 上 进行 排序 ， 产 生计 算 资 源 由 大 到 小 的 usableWorkers 数据 结构 。 
bE val usableWorkers = workers.toArray.filter {(_ .state == WorkerState 
-ALIVE) 
2 .filter (worker => worker.memoryFree >= app.desc 
-memoryPerExecutorMB &E& 
se worker .coresFree >= coresPerExecutor.getOrElse(1)) 
4. .SortBy( .coresFree) .reverse 
5. val assignedCores = scheduleExecutorsOnWorkers(app, usableWorkers, 
spreadOutApps) 


然后 调用 scheduleExecutorsOnWorkers， 在 FIFO 的 情况 下 ， 默 认 spreadOutApps 让 应 用 
程序 尽 可 能 多 地 运行 在 所 有 的 Node 上 。 


Ys private val spreadOutApps = conf.getBoolean ("spark.deploy.spreadout", 
true) 


scheduleExecutorsOnWorker 中 , minCoresPerExecutor 表示 每 个 Executor 最 小 分 配 的 core 
个 数 。scheduleExecutorsOnWorker 的 源码 如 下 。 


private def scheduleExecutorsOnWorkers ( 

app: ApplicationInfo, 

usableWorkers: Arrayl[WorkerInfo], 

spreadOutApps: Boolean): Array[Int] = { 

val coresPerExecutor = app.desc.coresPerExecutor 

minCoresPerExecutor = coresPerExecutor.getOrElse(1) 
val oneExecutorPerWorker = coresPerExecutor.isEmpty 
val memoryPerExecutor = app.desc.memoryPerExecutorMB 
val numUsable = usableWorkers.length 
val assignedCores = new Array[Int] (numUsable) 

和 val assignedExecutors = new Array[Int] (numUsable) 

325 var coresToAssign = math.min(app.coresLeft, usableWorkers.map 
( .coresFree) .sum) 


Fo~awm 必 wwN 
区 
< 
由 
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(11) 为 应 用 程序 分 配 Executors 有 两 种 方式 : 第 一 种 方式 是 尽 可 能 在 集群 的 所 有 Worker 
上 分 配 Executor， 这 种 方式 往往 会 带 来 潜在 的 、 更 好 的 数据 本 地 性 ; 第 二 种 方式 是 尝试 运行 
在 尽 可 能 少 的 Worker 上 。 

(12) 具 体 在 集群 上 分 配 Cores 时 会 尽 可 能 地 满足 我 们 的 要 求 .math.min 用 于 计算 最 小 值 。 
coresToAssig 用 于 计算 app.coresLeft 与 可 用 的 Worker 中 可 用 的 Cores 的 和 的 最 小 值 。 例 如 ， 
应 用 程序 要 求 1000 个 Cores, 但 整个 集群 中 只 有 100 个 Cores, 所 以 只 能 先 分 配 100 个 Cores。 

scheduleExecutorsOnWorkers 方法 如 下 。 


加 Var coresToAssign = math.min(app.coresLeft, usableWorkers.map 
(_.coresFree) .sum) 


(13) 如 果 每 个 Worker 下 面 只 能 为 当前 的 应 用 程序 分 配 一 个 Executor， 那 么 每 次 只 分 配 
一 个 Core。scheduleExecutorsOnWorkers 方法 如 下 。 


hs if (oneExecutorPerWorker) { 
汪汪 assignedExecutors (pos) = 1 


二 六 二 
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} else { 
assignedExecutors (pos) += 1 


} 


总 结 为 两 种 情况 :一 种 情况 是 尽 可 能 在 一 台 机 器 上 运行 程序 的 所 有 功能 ; 另 一 种 情况 是 





尽 可 能 在 所 有 节点 上 运行 程序 的 所 有 功能 。 无 论 是 哪 种 情况 ， 每 次 给 Executor 增加 Cores， 是 增 


加 一 个 ， 如 果 是 spreadOutApps 的 方式 ,循环 一 轮 再 下 一 轮 。 例如， 有 4 个 Worker， 第 一 次 为 每 
个 Executor 启动 一 个 线程 ， 第 二 次 循环 分 配 一 个 线程 ， 第 三 次 循环 再 分 配 一 个 线程 …… 
scheduleExecutorsOnWorkers 方法 如 下 。 


c vawm 必 wm 
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while (freeWorkers.nonEmpty) { 
freeWorkers.foreach { pos => 
var keepScheduling = true 
while (keepScheduling && canLaunchExecutor(pos)) { 
CoresToRssign -= minCoresPerExecutor 
assignedCores (pos) += minCoresPerExecutor 


// 如 果 每 个 worker 上 启动 一 个 Executor， 邦 么 每 次 兴 代 在 Executor 上 分 配 一 
// 个 核 ， 和 否则 ， 每 次 欠 代 都 将 把 内 核 分 配给 一 个 新 的 Executor 
if (oneExecutorPerWorker) { 
assignedExecutors(pos) = 1 
} else { 
assignedExecutors(pos) += 1 


有 


// 展 开 应 用 程序 意味 着 将 Executors 展开 到 尽 可 能 多 的 workers 节点 。 如 果 不 展 
// 开 ,将 对 这 个 workers 的 Executors 进行 调度 ， 直 到 使 用 它 的 全 部 资源 。 和 否则， 
// 只 是 移动 到 下 一 个 worker 节点 
if (spreadOutApps) { 
keepScheduling = false 
} 
} 
1 


回 到 Master.scala 的 startExecutorsOnWorkers， 现 在 已 经 决定 为 每 个 worker 分 配 多 少 个 


cores， 然 后 进行 资源 分 配 。 





2 
3 
4 


for (pos <- 0 until usableWorkers.length if assignedCores (Pos) 
> 0) { 
allocateWorkerResourceToExecutors ( 
app, assignedCores (pos), coresPerExecutor, usableWorkers (pos)) 


} 


allocateWorkerResourceToExecutors 的 源码 如 下 。 


private def allocateWorkerResourceToExecutors ( 
app: ApplicationInfo, 
assignedCores: Int, 
coresPerExecutor: Option[Int], 
worker: WorkerInfo) : Unit = { 
// 如 果 指定 了 每 个 Executor 的 内 核 数 ， 我 们 就 将 分 配 的 内 核 无 剩余 地 均 分 给 worker 节点 的 
//Executors。 否 则 ， 我 们 启动 一 个 单一 的 Executor， 抓 住 这 个 worker 节点 所 有 的 
//assignedCores 
val numExecutors = coresPerExecutor.map { assignedCores / } .getOrElse (1) 
Val coresToAssign = coresPerExecutor.getOrElse (assignedCores) 
for (i <- 1 to numExecutors) { 
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0s Val exec = app-.addExecutor (worker, coresToAssign) 
launchExecutor (worker, exec) 

12” app.state = ApplicationState .RUNNING 

95 i 

Ey Ce 


allocateWorkerResourceToExecutors 中 的 app.addExecutor 增加 一 个 Executor， 记 录 Executor 


的 相关 信息 。 
4 private[master] def addExecutor!( 
总 worker: WorkerInfo, 
全 cores: Int, 
4. useID: Option[Int] = None): ExecutorDesc = { 
Se Val exec = new ExecutorDesc (newExecutorId (useID), this, worker, cores, 
desc.memoryPerExecutorMB) 
Ds executors (exec.id) = exec 
js coresGranted += cores 
8 exec 
9 } 











可 到 allocateWorkerResourceToExecutors 方法 中 ，launchExecutor(worker，exec) 启 动 





Executor。 


:E launchExecutor (worker, exec) 


(14) 准备 具体 要 为 当前 应 用 程序 分 配 的 Executor 信息 后 ，Master 要 通过 远程 通信 发 指 


令 给 Worker 来 具体 启动 ExecutorBackend 进程 。 


launchExecutor 方法 如 下 。 


:a private def launchExecutor (worker: WorkerInfo, exec: ExecutorDesc): 
Unit = { 

4 logInfo("Launching executor " + exec.fullId + " on worker "+ worker.id) 

3 worker .addExecutor (exec) 

4. worker.endpoint.send(LaunchExecutor (masterUr]l, 

5 exec.application.id, exec.id, exec.application.desc, exec.cores, 


exec.memory)) 
0200 SV 


(15) 紧 接 着 给 应 用 程序 的 Driver 发 送 一 个 ExecutorAdded 的 信息 。 

launchExecutor 方法 如 下 。 

:i exec.application.driver.send!( 

六 ExecutorAdded (exec.id, worker.id, worker.hostPort, exec.cores, 


exec.memory)) 
3. } 


6.3 从 Application 提交 的 角度 重新 审视 Driver 








本 节 从 Application 提交 的 角度 





新 审视 Driver, 彻底 解密 Driver 到 底 是 什么 时 候 产生 的 ， 


以 及 Driver 和 Master 交互 原理 、Driver 和 Master 交互 源码 。 


“2 
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6.3.1 Driver 到 底 是 什么 时 候 产 生 的 


在 SparkContext 实例 化 时 ， 通 过 createTaskScheduler 来 创建 TaskSchedulerImpl 和 
StandaloneSchedulerBackend 。 


SparkContext.scala 的 源码 如 下 。 


1. class SparkContext (config: SparkConf) extends Logging { 

| 

3. val (sched, ts) = SparkContext.createTaskScheduler (this, master, 
deployMode) 

4. schedulerBackend = sched 

Ss taskScheduler = ts 

6= 

Y dagScheduler = new DAGScheduler (this) 

8. heartbeatReceiver.ask[Boolean] (TaskSchedulerIsSet) 

9 

10. private def createTaskScheduler( 

EB 

Ee case SPARK REGEX (sparkUrl) => 

3 val scheduler = new TaskSchedulerImpl (sc) 

FE val masterUrls = sparkUrl.split(",") .map("spark://" + ) 

ns val backend = new StandaloneSchedulerBackend(scheduler, sc， 

masterUrls) 

I scheduler.initialize (backend) 

pis (backend, scheduler) 

LO a 


在 createTaskScheduler 中 调用 scheduler.initialize(backend)，initialize 的 方法 参数 把 
StandaloneSchedulerBackend 传 进来 。 
TaskSchedulerImpl 的 initialize 的 源码 如 下 。 


3 def initialize(backend: SchedulerBackend) { 
区 this.backend = backend 
SE 


initialize 的 方法 把 StandaloneSchedulerBackend 传 进来 了 ， 但 还 没有 启动 Standalone- 
SchedulerBackend。 在 TaskSchedulerImpl 的 initialize 方法 中 ， 把 StandaloneSchedulerBackend 
传 进来 ， 赋 值 为 TaskSchedulerImpl 的 backend。 

在 TaskSchedulerImpl 中 调用 start 方法 时 ， 会 调用 backend.start 方法 ， 在 start 方法 中 会 
注册 应 用 程序 。 

SparkContext.scala 的 taskScheduler 的 源码 如 下 。 


区 val (sched, ts) = SparkContext.createTaskScheduler (this， master, 
deployMode) 

2 _schedulerBackend = sched 

3 _taskScheduler = ts 

A _dagScheduler = new DAGScheduler (this) 

DW a 

6, _taskScheduler.start () 

Ts _applicationId = taskScheduler.applicationId() 

8. _applicationAttemptId = taskScheduler.applicationAttemptId() 

车 conf.set ("spark.app.id", applicationId) 

1 


“3s 
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其 中 调用 了 _taskScheduler 的 start 方法 。 
1 private[spark] trait TaskScheduler { 
a se 
3 
4 
Lp 
TaskScheduler 的 start() 方 法 没 具 体 实现 , TaskScheduler 子 类 的 TaskSchedulerImpl 的 startO 
方法 的 源码 如 下 。 


到 override def start() { 
2 backend.start () 
< 


TaskSchedulerImpl 的 start0 通 过 backend.start() 启 动 了 StandaloneSchedulerBackend 的 start 
吝 法 < 

StandaloneSchedulerBackend 的 start 方法 中 ， 将 command 封装 注册 给 Master，Master 转 
过 来 要 Worker 启动 具体 的 Executor。command 已 经 封装 好 指令 , Executor 具体 要 启动 进程 入 
口 类 CoarseGrainedExecutorBackend。 然 后 调用 new0 函 数 创建 一 个 StandaloneAppClient， 通 
过 client.start0 启 动 client。 

StandaloneAppClient 的 start 方法 中 调用 new0 函 数 创 建 一 个 ClientEndpoint。 


FE def start() { 
2 // 启 动 一 个 rpcEndpoint， 它 将 回调 到 监听 器 
3. endpoint.set (rpcEnv.setupEndpoint ("AppClient", new ClientEndpoint 


(rpcEnv) )) 
a } 


ClientEndpoint 的 源码 如 下 。 


I private class ClientEndpoint (override val rpcEnv: RpcEnv) extends 
ThreadSafeRpcEndpoint 
with Logging { 
override def onStart () : Unit = { 
try { 
registerWithMaster (1) 
} catch { 
case e: Exception => 
logWarning("Failed to connect to master", e) 
markDisconnected () 
stop () 


co ~aw 心 wN 


FF 
PO， 


上 上 
WN 


| 
i 
ClientEndpoint 是 一 个 ThreadSafeRpcEndpoint。ClientEndpoint 的 onStart() 方 法 中 调用 
registerWithMaster(1) 进 行 注册 ， 向 Master 注册 程序 。registerWithMaster 方法 如 下 。 
StandaloneAppClient.scala 的 源码 如 下 。 





: private def registerWithMaster (nthRetry: Int) { 
2 registerMasterFutures.set (tryRegisterAllMasters () ) 
Se 


registerWithMaster 中 调用 了 tryRegisterAllMasters 方法 。 在 tryRegisterAllMasters 方法 中 ， 


2 
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ClientEndpoint 问 Master 发 送 RegisterApplication 消息 进行 应 用 程序 的 注册 。 
StandaloneAppClient scala 的 源码 如 下 。 


:ke private def tryRegisterAllMasters(): Array[JFuture[ ]] ={ 
2 
但 
4 


程序 注册 以 后 ，Master 通过 schedule0 分 配 资源 ， 通 知 Worker 启动 Executor，Executor 
启动 的 进程 是 CoarseGrainedExecutorBackend，Executor 启动 以 后 又 转 过 来 向 Driver 注册 ， 
Driver 其 实 是 StandaloneSchedulerBackend 的 父 类 CoarseGrainedSchedulerBackend 的 一 个 消息 


循环 体 DriverEndpoint。 
Master.scala 的 receive 方法 的 源码 如 下 。 
< 远 override def receive: PartialFunction[Any, Unit] = { 
也 case RegisterApplication(description, driver) => 
< 
4. registerApplication (app) 
5 logInfo ("Registered app " + description.name + " with ID "+ app.id) 
0 persistenceEngine.addApplication (app) 
了 中 driver.send(RegisteredApplication(app.id，self)) 
局 schedule() 
国 | 


在 Master 的 receive 方法 中 调用 了 schedule 方法 。Schedule 方法 





等 待 的 应 用 程序 中 调 


度 当 前 可 用 的 资源 。 每 次 一 个 新 的 应 用 程序 连接 或 资源 发 生 可 用 性 的 变化 时 ， 此 方法 将 被 


调用 。 
Master.scala 的 schedule 方法 的 源码 如 下 。 


了 private def schedule(): Unit = { 
2 
< if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= 


driver.desc.cores) { 


4 launchDriver (worker, driver) 

5 waitingDrivers -= driver 

6 launched = true 

. } 

可 curPos = (curPos + 1) % numWorkersAlive 
9 } 

10 } 

3 startExecutorsOnWorkers () 


12. j 


Master.scala 在 schedule 方法 中 调用 launchDriver 方法 。launchDriver 方法 给 Worker 发 送 


launchDriver 的 消息 。Master.scala 的 launchDriver 的 源码 如 下 。 
private def launchDriver (worker: WorkerInfo, driver: DriverInfo) 


worker.addDriver (driver) 
driver.worker = Some (worker) 
worker.endpoint.send (LaunchDriver (driver.id, driver.desc)) 
driver.state = Driverstate .RUNNING 
} 


FOAMUAONP 


launchDriver 本 身 是 一 个 case class， 包 括 driverId、driverDesc 等 信息 。 


“de 


{ 


logInfo("Launching driver " + driver.id + " on worker " + worker.id) 
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本 case class LaunchDriver (driverId: String, driverDesc: DriverDescription) 
extends DeployMessage 


DriverDescription 包含 了 jarUrl、memory、cores、supervise、command 等 内 容 。 


1. private[deploy] case class DriverDescription( 


这 所 jarUrl: String, 

EE mem: Int, 

A cores: Int, 

5 supervise: Boolean, 

65 command: Command) { 

8. override def toString: String = s"DriverDescription (${command. 
mainClass})" 

和 


Master.scala 中 launchDriver 启动 了 Driver， 接 下 来 ，launchExecutor 启动 Executor。 
Master.scala 的 launchExecutor 的 源码 如 下 。 


各 private def launchExecutor (worker: WorkerInfo, exec: ExecutorDesc): 
Unit = { 

二 logInfo("Launching executor " +exec.fullId + "on worker "+ worker.id) 

学 worker .addExecutor (exec) 

人 e worker.endpoint.send (LaunchExecutor (masterUr]l, 

: exec.application.id, exec.id, exec.application.desc, exec.cores, 

exec.memory)) 
= exec.application.driver.send!( 
ee ExecutorAdded (exec.id, worker.id, worker.hostPort, exec.cores, 


exec.memory)) 

8. 

Master 给 Worker 发 送 一 个 消息 LaunchDriver 启动 Driver， 然 后 是 launchExecutor 启动 
Executor，launchExecutor 有 自己 的 调度 方式 ， 资 源 调度 后 ， 也 是 给 Worker 发 送 了 一 个 消息 
LaunchExecutor。 

Worker 就 收 到 Master 发 送 的 LaunchDriver、LaunchExecutor 消息 。 

图 6-2 是 Worker 原理 内 幕 和 流程 机 制 。 











Worker 进 程 








封装 好 Driver 的 启动 Driver 延 程 
的 Command， 并 通 


过 ProcessBuilder 启 





来 处 理 Driver 的 


已 到 












LaunchExecuto 







内 部 使 用 Thread 
来 处 理 Executor 
的 启动 








通过 ProcessBuilder 
启动 Executor 


ExecutorBackend 











图 6-2 Worker 原理 内 幕 和 流程 机 制 


Master、Worker 部 署 在 不 同 的 机 器 上 ，Master、Worker 为 进程 存在 。Master 给 Worker 


a 
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发 两 种 不 同 的 指令 : 一 种 指令 是 LaunchDriver; 另 一 种 指令 是 LaunchExecutor。 
口 Worker 收 到 Master 的 LaunchDriver 消息 以 后 ,调用 new0 函 数 创建 一 个 DriverRunner， 
然后 启动 driver .start( 方 法 。 
Worker .scala 的 源码 如 下 。 


case LaunchDriver (driverId, driverDesc) => 
人 

3. val driver = new DriverRunner( 

I 

5 


driver.start () 


口 Worker 收 到 Master 的 LaunchExecutor 消息 以 后 ,new0 函 数 创 建 一 个 ExecutorRunner， 
然后 启动 manager.start() 方 法 。 
Worker.scala 的 源码 如 下 


Ee case LaunchExecutor (masterUrl, appId, execId, appDesc, cores , memory ) => 
ee 

3. val manager = new ExecutorRunner!( 

ee 


5. manager.start() 


Worker 的 DriverRunner、ExecutorRunner 在 调用 start 方法 时 , 在 start 内 部 都 启动 了 一 条 
线程 ， 使 用 Thread 来 处 理 Driver、Executor 的 启动 。 以 Worker 收 到 LaunchDriver 消息 ，new 
出 DriverRunnerDriverRunner 为 例 ，DriverRunner.scala 的 start 的 源码 如 下 。 


1. /## 启 动 一 个 线程 来 运行 和 管理 Driver*/ 

汉 private[worker] def start() = { 

3 new Thread ("DriverRunner for " + driverId) { 

a override def run() { 

5 Var shutdownHook: AnyRef = null 

6 try { 

shutdownHook = ShutdownHookManager.addShutdownHook { () => 
8 logInfo(s"Worker shutting down, killing driver S$driverId") 
9- kill() 

10 . } 

11. 

了 // 准 备 Driver 的 jars 包 ， 运 行 Driver 

3 val exitCode = prepareAndRunDriver () 

14. 

15 // 设 置 的 最 终 状 态 取决 于 是 否 强制 删除 ， ee 
16. finalState = if (exitCode == 0) 

yy Some (DriverState.FINISHED) 

L185 } else if (killed) { 

加 Some (DriverState -.KILLED) 

20. } else { 

Some (DriversState.FAILED) 

汉人 2 } 

人 235 } catch 1 

沁 有 a case e: Exception => 

2 KILL 

26. finalState = Some (DriverState .ERROR) 

275 finalException = Some (e) 

28 . } finally { 

29: if (shutdownHook != null) { 

S05 ShutdownHookManager .removeShutdownHook (shutdownHook) 
SI } 
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2 

93 

4 // 通 知 worker 节点 Driver 的 最 终 状 态 及 可 能 的 异常 

35< worker.send (DriverStateChanged (driverId, finalstate.get, 
finalException)) 

36. 上 

3 }-start() 

S80 


DriverRunner.scala 的 start 方法 中 调用 了 prepareAndRunDriver 方法 ， 准 备 Driver 的 jar 
包 和 启动 Driver。prepareAndRunDriver 的 源码 如 下 。 
private[worker] def prepareAndRunDriver(): Int = { 


val driverDir = createWorkingDirectory() 
val localJarFilename = downloadUserJar (driverDir) 


1 
加 
4 
5 def substituteVariables (argument: String) : String = argument match { 
6 case "{{WORKER URL}}" => workerUrl 

= case "{{USER JAR}}" => localJarFilename 

8 case other => other 

| 

10 


} 
// 待 办 事项 : 如果 我 们 增加 了 提交 多 个 jars 包 的 能 力 ， 在 这 里 也 要 增加 


人 val builder = CommandUtils.buildProcessBuilder (driverDesc.command, 
securityManager, driverDesc.mem, sparkHome.getAbsolutePath, 
substituteVariables) 


5 runDriver (builder, driverDir, driverDesc.supervise) 

Ge } 

LaunchDriver 的 启动 过 程 如 下 。 

口 Worker 进程 : Worker 的 DriverRunner 调用 start 方法 , 内 部 使 用 Thread 来 处 理 Driver 
启动 。DriverRunner 创建 Driver 在 本 地 系统 的 工作 目录 ( 即 Linux 的 文件 目录 ) ， 每 
次 工作 都 有 自己 的 目录 ， 封 装 好 Driver 的 启动 Command， 通 过 ProcessBuilder 启动 
Driver。 这 些 内 容 都 属于 Worker 进程 。 

口 Driver 进程 : 启动 的 Driver 属于 Driver 进程 。 

LaunchExecutor 的 启动 过 程 如 下 。 

口 Worker 进程 : Worker 的 ExecutorRunner 调用 start 方法 ， 内 部 使 用 Thread 来 处 理 
Executor 启动 。ExecutorRunner 创建 Executor 在 本 地 系统 的 工作 目录 ( 即 Linux 的 文 
件 目 录 ) ， 每 次 工作 都 有 自己 的 目录 ， 封 装 好 Executor 的 启动 Command， 通 过 
ProcessBuilder 来 启动 Executor。 这 些 内 容 都 属于 Worker 进程 。 

口 Executor 进程 启动 的 Executor 属于 Executor 进程 。Executor 在 ExecutorBackend 里 
面 ，ExecutorBackend 在 Spark standalone 模式 中 是 CoarseGrainedExecutorBackend。 
CoarseGrainedExecutorBackend 继承 自 ExecutorBackend。Executor 和 ExecutorBackend 
是 一 对 一 的 关系 ， 一 个 ExecutorBackend 有 一 个 Executor， 在 Executor 内 部 是 通过 线 
程 池 并 发 处 理 的 方式 来 处 理 Spark 提交 过 来 的 Task 的 。 

口 Executor 启动 后 要 向 Driver 注册 ， 注 册 给 SchedulerBackend。 

CoarseGrainedExecutorBackend 的 源码 如 下 。 





是 private[spark] class CoarseGrainedExecutorBackend ( 


a 


上 篇 ”内 核 解密 








当 芝 override val rpcEnv: RpcEnv， 

3 driverUrl: String, 

4. executorId: String, 

De hostname: String, 

B cores: Int, 

es userClassPath: Seq[URL], 

8. env: SparkEnv) 

ye extends ThreadSafeRpcEndpoint with ExecutorBackend with Logging { 
10. 

11. private[this] val stopping = new AtomicBoolean (false) 
12. var executor: Executor = null 

13. evolatile var driver: Option[RpcEndpointRef] = None 
1 


再 次 看 一 下 Master 的 schedule 方法 。 


必 private def schedule(): Unit = { 
2 
3 if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= 


driver.desc.cores) { 


4 launchDriver (worker, driver) 

Si waitingDrivers -= driver 

ES launched = true 

加 } 

8 curPos = (curPos + 1) % numWorkersAlive 
9 } 

10. } 

:i startExecutorsOnWorkers () 

2 


Master 的 schedule 方法 中 ， 如 果 Driver 运行 在 集群 中 ,通过 launchDriver 来 启动 Driver。 
launchDriver 发 送 一 个 消息 交 给 worker 的 endpoint， 这 是 RPC 的 通信 机 制 。 


private def launchDriver (worker: WorkerInfo, driver: DriverInfo) { 
logInfo("Launching driver " + driver.id + " on worker " + worker.id) 
worker.addDriver (driver) 

driver.worker = Some (worker) 

worker .endpoint.send(LaunchDriver (driver.id, driver.desc)) 
driver.state = DriverState .RUNNING 

} 


~Iawm 必 mwN 


Master 的 schedule 方法 中 启动 Executor 的 部 分 ， 通 过 startExecutorsOnWorkers 启动 ， 
startExecutorsOnWorkers 也 是 通过 RPC 的 通信 方式 。 

Master.scala 的 方法 中 调用 allocateWorkerResourceToExecutors 方法 进行 正式 分 配 。 

allocateWorkerResourceToExecutors 正式 分 配 时 就 通过 launchExecutor 方 法 启动 Executor。 


全 private def launchExecutor (worker: WorkerInfo，exec: ExecutorDesc) : Unit 
= 

和 logInfo("Launching executor " + exec.ful1Id + " on worker " + worker.id) 

过 人 worker.addExecutor (exec) 

4. worker.endpoint.send(LaunchExecutor (masterUrl, exec.application.id, 
exec.id, exec.application.desc, exec.cores, exec.memory)) 

5 exec.application.driver.send!( ExecutorAdded (exec.id, worker.id, 
worker.hostPort, exec.cores, exec.memory)) 

6. } 


i 
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Master 发 送 消息 给 Worker， 发 送 两 个 消息 : 一 个 是 LaunchDriver; 另 一 个 是 
LaunchExecutor。Worker 收 到 Master 的 LaunchDriver、LaunchExecutor 消息 。 下 面 看 一 下 
Worker。 


Private [deploy] class Worker( 

override val rpcEnv: RpcEnv， 
webUiPort: Int, 

Corese TInty 

memory: Int, 

masterRpcAddresses: Arrayl[RpcAddress], 
endpointName: String, 

workDirPath: String = null, 

红 val conf: SparkConf, 

105 val securityMgr: SecurityManager) 

11. extends ThreadSafeRpcEndpoint with Logging { 


oAAODp 


Worker 实现 RPC 通信 ， 继 承 自 ThreadSafeRpcEndpoint。ThreadSafeRpcEndpoint 是 一 个 
trait， 其 他 的 RPC 对 象 可 以 给 它 发 消息 。 
2 private[spark] trait ThreadSafeRpcEndpoint extends RpcEndpoint 


Worker 在 receive 方法 中 接收 消息 。 就 像 一 个 邮箱 ， 不 断 地 循环 邮箱 接收 邮件 ， 我 们 可 
以 把 消息 看 成 邮件 。 


了 override def receive: PartialFunction[Any，Unit] = synchronized { 

迷 。 case SendHeartbeat => 

二 

4. case WorkDirCleanup => 

0 

6. case MasterChanged (masterRef, masterWebUiUrl) => 

7 a 

和 case ReconnectWorker (masterUrl) => 

FE 

10. case LaunchExecutor (masterUrl, applId, execId, appDesc, cores_, memory_) 

和 

了 case executorStateChanged @ ExecutorStateChanged (appId, execId, state, 
message, exitStatus) 

3- a 

14. case KillExecutor (masterUrl, applId, execId) => 

.5m 

I case LaunchDriver (driverId, driverDesc) => 

:5 


Worker.scala 的 receive 方法 LaunchDriver 启动 Driver 的 源码 如 下 。 


case LaunchDriver (driverId, driverDesc) => 

和 logInfo(s"Asked to launch driver $driverId") 

所 Val driver = new DriverRunner( 

4. conf, 

i driverId, 

站 workDir, 

.a sparkHome, 

8 driverDesc.copy (command = Worker.maybeUpdateSSLSettings 
(driverDesc.command, conf)), 

self, 

1 workerUri, 

de securityMgr) 


“221's 
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村 drivers(driverId) = driver 
3 driver.start () 

14. 

15a coresUsed += driverDesc.cores 
16. memoryUsed += driverDesc.mem 


LaunchDriver 方法 首先 打印 日 志 , 传 进来 时 肯定 会 告诉 driverId。 启 动 Driver 或 者 Executor 
时 ，Driver 或 者 Executor 所 在 的 进程 一 定 满足 内 存 级 别 的 要 求 , 但 不 一 定 满足 Cores 的 要 求 ， 
实际 的 Cores 可 能 比 期 待 的 Cores 多 ， 也 有 可 能 少 。 

logInfo 方法 打印 日 志 使 用 了 封装 。 


:| protected def logInfo(msg: => String) { 
2 if (log.isInfogEnabled) log.info (msg) 
三 } 





可 到 LaunchDriver 方法 ， 其 中 调用 new0 函 数 创 建 一 个 DriverRunner。DriverRunner 包括 
driverId、 工作 目录 (workDir)、spark 的 路 径 (sparkHome ) 、driverDesc、workerUri、securityMgr 
等 内 容 。 在 代码 drivers(driverId) = driver 中 ， 将 driver 交 给 一 个 数据 结构 drivers，drivers 是 

-个 HashMap, 是 Key-Value 的 方式 ,其 中 Key 是 Driver 的 ID,Value 是 DriverRunner。Worker 
下 可 能 启动 很 多 Executor， 须 根据 具体 的 ID 管理 DriverRunner。DriverRunner 内 部 通过 线程 
的 方式 启动 另外 一 个 进程 Driver。DriverRunner 是 Driver 所 在 进程 的 代理 。 


ds val drivers = new HashMap[String, DriverRunner] 











回 到 Worker.scala 的 LaunchDriver，Worker 在 启动 driver 前 ， 将 相关 的 DriverRunner 数 
据 保 存 到 Worker 的 内 存 数 据 结构 中 ,然后 进行 driver.start(0。start 之 后 ,将 消耗 的 cores、memory 
增加 到 coresUsed、memoryUsed。 

接 下 来 进入 DriverRunner.scala 的 源码 。DriverRunner 管理 Driver 的 执行 ,包括 在 Driver 
失败 的 时 候 自 动 重启 。 如 Driver 运行 在 集群 模式 中 ， 加 入 supervise 关键 字 可 以 自动 重启 。 


四 private[deploy] class DriverRunner( 
这 conf: SparkConf, 

3 val driverId: String, 

站 val workDir: File, 

5S val sparkHome: File, 

6. val driverDesc: DriverDescription, 

De val worker: RpcEndpointRef, 

Be val workerUrl: String, 

证 val securityManager: SecurityManager) 


10. extends Logging { 


其 中 DriverDescription 的 源码 如 下 。 其 中 包括 DriverDescription 的 成 员 supervise， 
supervise 是 一 个 布尔 值 ， 如 果 设 置 为 True， 在 集群 模式 中 Driver 运行 失败 的 时 候 ，Worker 
会 负责 重新 启动 Driver。 


private[deploy] case class DriverDescription( 
jarUrL: SEringy 

mem: Int, 

cores:” Ints 

supervise: Boolean, 

command: Command) { 





DOm 忆 wmN 


override def toString: String = s"DriverDescription (${command 


“3228 


第 6 章 Spark Application 提交 给 集群 的 原理 和 源码 详解 








.mainClass})" 
ek 





回 到 Worker.scala 的 LaunchDriver，DriverRunner 构造 出 后 ， 调 用 其 start 方法 ， 通 过 一 
个 线程 管理 Driver， 包 括 启 动 Driver 及 关闭 Driver。 其 中 ，Thread("DriverRunner for " + 
driverId)，DriverRunner for driverId 是 线程 的 名 字 ，Thread 是 Java 的 代码 ，scala 可 以 无 颖 
连接 Java。 
DriverRunner 的 start 方法 调用 prepareAndRunDriver 来 实现 driver jar 包 的 准备 及 启动 
drver。 
prepareAndRunDriver 方法 中 调用 了 createWorkingDirectory 方法 创建 目录 。 通 过 Java 的 
new File 创建 了 Driver 的 工作 目录 ， 如 果 目 录 不 存在 而 且 创 建 不 成 功 ， 就 提示 失败 。 在 本 地 
文件 系统 创建 一 个 目录 一 般 不 会 失败 ， 除 非 磁盘 满 。createWorkingDirectory 的 源码 如 下 。 
private def createWorkingDirectory(): File = { 
val driverDir = new File(workDir, driverId) 
if (!'driverDir.exists() && !driverDir.mkdirs()) { 
throw new IOException("Failed to create directory " + driverDir) 


} 


driverDir 


, 





OANAODP 


回 到 DriverRunner.scala 的 prepareAndRunDriver 方法 , 其 中 采用 downloadUserJar 方法 下 
载 jar 包 。 我们 自己 写 的 代码 是 一 个 jar 包 ， 这 里 下 载 用 户 的 jar 包 到 本 地 。jar 包 在 Hdfs 中 ， 
开发 人 员 需 要 从 Hdfs 中 获取 Jar 包 下 载 到 本 地 。 

downloadUserJar 方法 的 源码 如 下 。 


: 隔 private def downloadUserJar (driverDir: File): String = { 
val jarFileName = new URI (driverDesc.jarUrl) .getPath.split("/") .last 
3 val localyJarFile = new Filel(driverDir, jarFileName) 
2 if (!localJarFile.exists()) { // 如 果 在 一 个 节点 上 运行 多 个 Worker， 文件 可 能 
// 已 经 存在 
本 过 logInfo(s"Copying user jar ${driverDesc.jarUrl} to $localJarFile") 
6 Utils.fetchFile( 
Ss driverDesc.jarUrl, 
8. driverDir, 
人 ConE: 
0. securityManager, 


是 SparkHadoopUtil.get.newConfiguration (conf), 

2 System.currentTimeMillis()， 

3 useCache = false) 

4. if (!localJarFile.exists()) { // 验 证 复制 成 功 

[3 throw new IOException( 

6 s"Can not find expected jar $jarFileName which should have been 
loaded in $driverDir") 


} 





Ee 

8. } 
9 localJarFile.getAbsolutePath 
0 出 


downloadUserJar 方法 调用 了 fetchFile，fetchFile 借助 Hadoop， 从 Hdfs 中 下 载 文件 。 我 
们 提交 文件 时 , 将 jar 包 上 传 到 Hdfs 上 , 提交 一 份 , 大 家 都 可 以 从 Hdfs 中 下 载 。 Utile. fetchFile 
方法 的 源码 如 下 。 


“9. 


上 篇 ”内 核 解密 








; def fetchFilel( 

















2= uc: String, 
加 加 targetDir: File, 
A conf: SparkConf, 
5 securityMgr: SecurityManager, 
6s hadoopConf: Configuration, 
ji timestamp: Long, 
RE useCache: Boolean) { 
DE val fileName = decodeFileNameInURI (new URI (url1)) 
0. val targetFile = new File(targetDir, fileName) 
下 二 val fetchCacheEnabled = conf.getBoolean("spark.files.useFetchCache"， 
defaultValue = true) 
ee if (useCache && fetchCacheEnabled) { 
a val cachedFileName = s"${url.hashCode}$ {timestamp} cache" 
于 二 val lockFileName = s"${url.hashCode}$ {timestamp} lock" 
sh val localDir = new File(getLocalDir (conf)) 
6. val lockFile = new File(localDir, lockFileName) 
ti val lockFileChannel = new RandomAccessFile (lockFile, "rw") .getChannel () 
8. // 只 有 一 个 executor 入 口 。FileLock 用 来 控制 executors 下 载 的 文件 同步 ， 无 论 
// 锁 类 型 是 mandatory 还 是 advisory， 它 始终 是 安全 的 
9 val lock = lockFileChannel .lock() 
205 val cachedFile = new File(localDir, cachedFileName) 
a Ery 
2 if (!cachedFile.exists()) { 
235 doFetchFile(url, localDir, cachedFileName, conf, securityMgr, 
hadoopConf) 
24. } 
人 } finally { 
2 lock.release() 
2 lockFileChannel.close() 
28. } 
29. copyFilel( 
30- els 
Ss cachedFile, 
SR targetFile, 
3 conf.getBoolean ("spark.files.overwrite"，false) 
34. ) 
上 局 } else { 
36. doFetchFile(url, targetDir, fileName, conf, securityMgr, 
hadoopConf) 
Se } 
可 到 DriverRunner.scala 的 prepareAndRunDriver 方法 ，driverDesc.command 表明 运行 什 
么 类 ， 构 建 进程 运行 类 的 入 口 ， 然 后 是 runDriver 启动 Driver。 
Private [worker] def prepareAndRunDriver(): Int = { 
2 
了 val builder = CommandUtils.buildProcessBuilder (driverDesc.command, 
securityManager, 
< 了 driverDesc.mem, sparkHome.getAbsolutePath, substituteVariables) 
a 
6 runDriver (builder, driverDir, driverDesc.supervise) 
Rs } 


DriverRunner.scala 的 runDriver 方法 如 下 。runDriver 中 重 定向 输出 文件 和 err 文件 ， 可 以 
通过 log 文件 查看 执行 的 情况 。 最 后 是 调用 mnCommandWithRetry 方法 。 


i private def runDriver (builder: ProcessBuilder, baseDir: File, supervise: 
Boolean): Int = { 


“i 
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之 builder.directory (baseDir) 

人 二 def initialize (process: Process): Unit = { 

2 //stdout 和 stderr 重 定向 到 文件 

全 val stdout = new File(baseDir, "stdout") 

| ;请 CommandUtils .redirectStream(process.getInputStream，stdout) 

中 

:全 val stderr = new File(baseDir, "stderr") 

9 val formattedCommand = builder.command.asScala.mkstring("\"", "\" 
Nm mn) 

0 Val header = "Launch Command: Ss\n%s\n\n".format (formattedCommand, 
"=" * 40) 

Fb Files.append (header, stderr, StandardCharsets.UTF 8) 

2 CommandUtils.redirectStream(process.getErrorStream, stderr) 

全 有 

14. runCommandWithRetry (ProcessBuilderLike (builder), initialize, supervise) 

5 


runCommandWithRetry 中 传 入 的 参数 是 ProcessBuilderLike(builder), 这 里 调用 new0 函 数 
创建 一 个 ProcessBuilderLike, 在 重 载 方法 start 中 执行 processBuilder.start()。ProcessBuilderLike 
的 源码 如 下 。 


1. private[deploy] object ProcessBuilderLike { 
2 def apply (processBuilder: ProcessBuilder): ProcessBuilderLike = new 
ProcessBuilderLike { 
override def start(): Process = processBuilder.start() 
override def command: Seq[String] = processBuilder.command() .asScala 
3 
} 


CN 心 w 


runCommandWithRetry 的 源码 如 下 。 





i private[worker] def runCommandWithRetry( 

2 command: ProcessBuilderLike, initialize: Process => Unit, supervise: 
Boolean): Int = { 

二 后 Var exitCode = -1 

4 // 等 待 时 间 提 交 重 试 

全 var waitSeconds = 1 

6. // 运 行 一 定 秒 的 时 间 以 后 回 退 重 置 

了 val successfulRunDuration = 5 

8 var keepTrying = !killed 

9 

LOs while (keepTrying) { 

TL logInfo ("Launch Command: " + command.command.mkstring(™\"", "\™ \"", 
mn)) 

12- 

Ns synchronized { 

14. if (killed) { return exitCode } 

process = Some (command.start()) 

卫生 < initialize (process.get) 

Te } 

Be 

ek: 内 val processStart = clock.getTimeMillis() 

Z0DE exitCode = process.get.waitFor () 

2 

2 // 如 果 尝 试 另 一 个 运行 检查 

2 keepTrying = supervise && exitCode != 0 && !killed 

4 本 if (keepTrying) { 

2 if (clock.getTimeMillis() - processStart > successfulRunDuration 


到 六 二 


上 篇 ”内 核 解密 








26. 
2 
29- 


之 9 
05 
3 
92 
33. 
34. 
上天 
6 


runCommandWithRetry 第 一 次 不 一 定 能 申请 成 功 ， 因 此 循环 遍历 


. 


} 


* 1000) { 
waitSeconds = 1 
} 
logInfo(s"Command exited with status $exitCode, re-launching after 
S$waitSeconds s.") 
sleeper.sleep (waitSeconds) 
waitSeconds = waitSeconds * 2 //exponential back-off 


| 


exitCode 








试 。DriverRunner 启 





动 进程 是 通过 ProcessBuilder 中 的 process.get.waitFor 来 完成 的 。 如 果 supervise 设置 为 True， 
exitCode 为 非 零 退出 码 及 driver 进程 没有 终止 ， 我 们 将 keepTrying 设置 为 True， 继 续 循 环 重 


试 启动 进程 。 
回 到 DriverRunner.scala 的 LaunchDriver 方法 如 下 。 


case LaunchDriver (driverId, driverDesc) => 





这 
< 让 
4 


drivers (driverId) = driver 
driver.start () 


采用 driver.start 方法 启动 Driver， 进 入 start 的 源码 如 下 。 


private[worker] def start() = { 


oo~awm 必 wm 


} 


new Thread ("DriverRunner for " + driverId) { 


override def run() { 
eaten t 
case e: Exception => 
kill () 
finalState = Some (DriverState.ERROR) 
finalException = Some (e) 
} finally { 
if (shutdownHook != null) { 
ShutdownHookManager .removeShutdownHook (shutdownHook) 
} 
} 


/ /通知 worker 节点 Driver 的 最 终 状 态 及 可 能 的 异常 
worker .send (DriverStateChanged (driverId, finalstate.get, 
finalException)) 


b 


bstart() 


Start 启动 时 运行 到 了 finalState， 可 能 是 Spark 运行 出 状况 了 ， 如 Driver 运行 时 KILLED 
或 者 FAILED， 出 状况 以 后 ， 通 过 worker.send 给 自己 发 一 个 消息 ， 通 知 DriverStateChanged 
状态 改变 。 下 面 是 Worker.scala 中 的 driverStateChanged 的 源码 。 


es 
2 


3" 


case driverStateChanged @ DriverStateChanged (driverlId, state, exception) => 


handleDriverStateChanged (driverStateChanged) 
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在 其 中 调用 handleDriverStateChanged 方法 ，handleDriverStateChanged 的 源码 如 下 。 


: private[worker] def handleDriverStateChanged (driverStateChanged: 
DriverStateCchanged): Unit = { 

val driverId = driverStateChanged.driverId 

| val exception = driverStateChanged.exception 

4. val state = driverStateChanged. state 

SD state match { 

6 





case DriverState.ERROR => 
logWarning(s"Driver $driverId failed with unrecoverable exception: 
${exception.get}") 


四 case DriverState.FRILED => 

9. logWarning(s"Driver $driverId exited with failure") 
10. case DriverState-FINISHED => 

logInfo(s"Driver $qriverId exited successfully") 
12: case DriverState.KILLED => 

区 logInfo(s"Driver $driverId was killed by user") 

4 case => 

了 5 logDebug(s"Driver $driverId changed state to $state") 
165 } 

有司 sendToMaster (driverStateChanged) 

18 . val driver = drivers.remove (driverId) .get 

了 3 finishedDrivers (driverId) = driver 

0 trimFinishedDriversIfNecessary() 

之 memoryUsed -= driver.driverDesc.mem 

225 coresUsed -= driver.driverDesc.cores 

2 . 


Worker.scala 的 handleDriverStateChanged 方法 中 对 于 state 的 不 同情 况 ， 打 印 相 关 日 志 。 
关键 代码 是 sndToMaster(driverStateChanged)， 发 一 个 消息 给 Master， 告 知 Driver 进程 挂 掉 。 
消息 内 容 是 driverStateChanged。sendToMaster 的 源码 如 下 。 





Private def sendToMaster (message: Any): Unit = { 
master match { 
case Some (masterRef) => masterRef.send (message) 
case None => 
logWarning( 
s"Dropping $message because the connection to master has not yet 
been established") 


co ~ 
二 


下 面 来 看 一 下 Master 的 源码 。Master 收 到 DriverStateChanged 消息 以 后 ， 无 论 Driver 的 
状态 是 DriverState ERROR | DriverState.FINISHED | DriverState KILLED | DriverState.FAILED 
中 的 任何 一 个 ， 都 把 Driver 从 内 存 数据 结构 中 删 掉 ， 并 把 持久 化 引擎 中 的 数据 清理 掉 。 


2 case DriverStateChanged (driverId, state, exception) => 

到 和 state match { 

3z case DriverState.ERROR | DriverState.FINISHED | DriverState.KILLED 
| DriverState.FAILED => 

A removeDriver (driverId, state, exception) 

5 Case = 

6. throw new Exception(s"Received unexpected state update for driver 


$driverId: $state") 
i } 


进入 removeDriver 的 源码 ， 清 理 掉 相关 数据 以 后 ， 青 次 调用 schedule 方法 。 


a 


上 篇 ”内 核 解密 








本 private def removeDriver!( 

2 driverId: String, 

:人 finalState: DriverState, 

4. exception: Option[Exception]) { 

I drivers.find(d => d.id == driverId) match { 

Be case Some (driver) => 

de logInfo(s"Removing driver: $driverId") 

RS drivers -= driver 

语 if (completedDrivers.size >= RETAINED DRIVERS) { 
40 val toRemove = math.max (RETAINED DRIVERS / 10, 1) 
3 completedDrivers .trimStart (toRemove) 

2 1 

3 completedDrivers += driver 

14. persistenceEngine.removeDriver (driver) 

LD driver.state = finalState 

Ge driver.exception = exception 

eb driver.worker.foreach(w => w.removeDriver (driver)) 
人 schedule() 

19s case None => 

205 logWarning(s"Asked to remove unknown driver: S$driverId") 
a } 

2 

< 攻击， 


接 下 来 看 一 下 启动 Executor。Worker.scala 的 LaunchExecutor 方法 的 源码 如 下 。 
Spark 2.1.1 版 本 的 Worker.scala 的 源码 如 下 。 


ee case LaunchExecutor (masterUrl, applId, execId, appDesc, cores , memory ) => 

人 if (masterUr1l != activeMasterUr1l) { 

35 logWarning("Invalid Master (" + masterUrl + ") attempted to launch 
executor.") 

4. } else { 

5 怎 生 本 法 

6. logInfo("Asked to launch executor $s/%d for %s".format (appId, 

execId, appDesc.name)) 

入 

8. // 创 建 executor 节点 的 工作 目录 

加 < val executorDir = new File (workDir，appId + "/" + execId) 

10C if (!executorDir.mkdqirs()) { 

让 throw new IOException("Failed to create directory "+ 

executorDir) 

2 } 

3 

A // 创 建 executor 的 本 地 目录 。 通 过 SPARK EXECUTOR_DIRS 环境 变量 传递 给 

//executor。 应 用 程序 完成 后 ， 这 些 目录 将 会 被 Worker 删除 

全 入 val appLocalDirs = appDirectories .getOrElse (appId, 

16. Utils.getOrCreateLocalRootDirs (conf) .map { dir => 

a Val appDir = Utils.createDirectory (dir, namePrefix = "executor") 

:二 Utils.chmod700 (appDir) 

19. appDir .getAbsolutePath() 

20. } .toseq) 

ZE appDirectories (appId) = appLocalDirs 

这 这 val manager = new ExecutorRunner( 

二 appId,， 

2 国 execId, 

2 appDesc.copy (command = Worker.maybeUpdateSSLSettings 

(appDesc.command, conf)), 
26: Cores ， 
Si memory_, 


.234。 
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28 . self, 

29. workerId, 

30 . host, 

SE webUi .boundPort, 

32> publicAddress, 

335 sparkHome, 

34. executorDir, 

Ss workerUri, 

36- conf, 

3 appLocalDirs, ExecutorState.RUNNING) 

38. executors (appId + "/" + execId) = manager 

39. manager.start () 

40. coresUsed 1 coreso 

41 memoryUsed += memory 

42. sendToMaster (ExecutorStateChanged (appId, execId, manager.state, 
None, None)) 

43. eateh 

44. case e: Exception => 

45. logError(s"Failed to launch executor $appId/$execId for 

${appDesc.name}.", e) 

46. if (executors.contains(appId + "/" + execId)) { 

> executors (appId + "/" + execId) .kill () 

48. executors -= appId + "/" + execId 

49. } 

50. sendToMaster (ExecutorStateChanged (appId, execId, 

ExecutorState .FAILED, 

SE Some (e.toString), None)) 

2 } 

53 } 


Spark 2.2.0 版 本 的 Worker.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 ， 上 有 段 代码 
中 第 16 一 20 行 整体 蔡 换 ， 新 增 以 下 代码 实现 对 Executor 本 地 目录 创建 失败 的 异常 处 理 。 








AU 

> val localRootDirs = Utils.getOrCreateLocalRootDirs (conf) 

3 val dirs = localRootDirs.flatMap { dir => 

4. ty 

加 名 val appDir = Utils.createDirectory (dir, namePrefix = 
"executor") 

| 记 Utils .chmod700 (appDir) 

汪汪 Some (appDir.getAbsolutePath () ) 

向 } catch { 

5 case e: IOException => 

0 logWarning(s"$ {e.getMessage}. Ignoring this directory.") 

I None 

12. } 

号 } .toSed 

E10 if (dirs.isEmpty) { 

LS throw new IOException("No subfolder can be created in "+ 

sk s"${localRootDirs.mkstring(",")}.") 

PL } 

8. dirs 

19. }) 

0 


直接 看 一 下 manager.start 方法 , 启动 一 个 线程 Thread, 在 run 方法 中 调用 fetchAndRunExecutor。 
其 中 ，fetchAndRunExecutor 的 源码 如 下 。 


s private def fetchAndRunExecutor() { 


上 篇 ”内 核 解密 








2 
3 
14. 
3 
16. 
Ts 


3 


try { 


// 启 动 进程 
val builder = CommandUtils.buildProcessBuilder (appDesc.command, new 
SecurityManager (conf), 

memory, sparkHome.getAbsolutePath, substituteVariables) 
val command = builder.command() 
val formattedCommand = command.asScala.mkstring(™\"", "NM \"™, "\"") 
logInfo(s"Launch command: $formattedCommand") 


builder.directory (executorDir) 
builder.environment .put ("SPARK EXECUTOR DIRS", appLocalDirs.mkString 
(File.pathSeparator) ) 

// 如 果 在 Spark Shell 中 和 运行， 避免 创 建 一 个 “Scala” 的 父 进程 执行 executor 命令 
builder.environment.put ("SPARK LAUNCH WITH SCALA", "0") 


// 增 加 WebUI 日 志 网 址 
Val baseUrl = 

if (conf.getBoolean("spark.ui.reverseProxy", false)) { 
s"/proxy/$workerId/logPage/?appId=$appId&executorId=$execId& 
logType=" 

} else { 
s"http://$publicAddress:$webUiPort/logPage/?appId= 
$appIdgexecutorId=$execIdglogType=" 

} 

builder.environment .put ("SPARK LOG URL STDERR", s"${baseUrl} 
stderr") 
builder.environment .put ("SPARK LOG URL STDOUT", s"${baseUrl} 
stdout") 


process = builder.start() 
val header = "Spark Executor Command: %s\n%ss\n\n".format( 
formattedCommand, "=" * 40) 


// 重 定向 stdout 和 stderr 文件 
Val stdout = new File (executorDir，"stdout") 
stdoutAppender = FileAppender (process.getInputStream, stdout, conf) 


Val stderr = new File(executorDir, "stderr") 
Files.write (header, stderr, StandardCharsets.UTF 8) 
stderrAppender = FileAppender (process.getErrorStream, stderr, conf) 


/ /等待 它 退 出 :执行 器 可 以 退出 代码 0( 当 driver 指示 它 关 闭 ) 或 非 零 退出 码 
val exitCode = process.waitFor() 
state = ExecutorState.EXITED 
val message = "Command exited with code " + exitCode 
worker.send (ExecutorStateChanged (appId, execId, state, Some 
(message), Some (exitCode))) 
catch { 
case interrupted: InterruptedException => 
logInfo ("Runner thread for executor " + fullId + " interrupted") 
state = ExecutorState .KILLED 
killProcess (None) 
case e: Exception => 
logError ("Error running executor", e) 
state = ExecutorState.FAILED 
killProcess (Some (e.toString)) 
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fetchAndRunExecutor 类 似 于 启动 Driver 的 过 程 ， 在 启动 Executor 时 首先 构建 
CommandUtils buildProcessBuilder， 然 后 是 builder start0， 退 出 时 发 送 ExecutorStateChanged 
消息 给 Worker。 

Worker scala 源码 中 的 executorStateChanged 如 下 。 


5 


2 


Case executorStateChanged @ ExecutorStateChanged (applId, execlId, state, 
message, exitStatus) => 


handleExecutorStateChanged (executorStateChanged) 


进入 handleExecutorStateChanged 源码 ， sendToMaster(executorStateChanged) 发 
executorStateChanged 消息 给 Master。 


于 


private[worker] def handleExecutorStateChanged (executorStateChanged: 
ExecutorStateChanged): 


Unit = { 
sendToMaster (executorStateChanged) 
val state = executorStateChanged.state 
if (ExecutorState.isFinished(state)) { 
val appId = executorStateChanged.appId 
val fullId = appId + "/" + executorStateChanged.execId 
Val message = executorStateChanged.message 
val exitStatus = executorStateChanged.exitStatus 
executors.get (fullId) match { 
case Some (executor) => 
logInfo("Executor " + fullId + "finished with state" + state + 


message.map(" message " + ).getOrElse("") + 
exitStatus.map(" exitStatus " + ).getOrElse("")) 
executors -= fullId 
finishedExecutors (fullId) = executor 
trimFinishedExecutorsIfNecessary () 
CoresUsed -= executor.cores 
memoryUsed -= executor .memory 


case None => 
logInfo ("Unknown Executor " + fullId + " finished with state " 
+ state + 
message.map(" message " + ).getOrElse("") + 
exitStatus.map(" exitStatus " + _) -getOrElse("")) 
} 
maybeCleanupApplication (appId) 


下 面 看 一 下 Master.scala。Master 收 到 ExecutorStateChanged 消息 。 如 状态 发 生 改变 ， 通 
过 exec.application.driver.send 给 Driver 也 发 送 一 个 ExecutorUpdated 消息 , 流程 和 启动 Driver 
基本 是 一 样 的 。ExecutorStateChanged 的 源码 如 下 。 


Ls 
2 


case ExecutorStateChanged (appId，execId，state，message，exitStatus) => 


val execOption = idToApp.get (appId) .flatMap (app => app.executors 
.get (execId) ) 
execOption match { 
case Some (exec) => 
val appInfo = idToApp (appId) 
val oldState = exec.state 
exec.state = state 


if (state == ExecutorState -RUNNING) { 


eds 
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1 assert (oldState == ExecutorState.LAUNCHING, 
LE s"executor $execId state transfer from $oldState to RUNNING 
is illegal") 

12> appInfo.resetRetryCount () 

33 上 

14. 

二 exec.application.driver.send (ExecutorUpdated (execId, state, 

message, exitSstatus, false)) 

16. 

i if (ExecutorState.isFinished(state)) { 

18. // 从 Worker 和 应 用 程序 中 删除 此 executor 

3 logInfo(s"Removing executor S${exec.fullId} because it is 
$state") 

208 // 如 果 应 用 程序 已 经 完成 ， 保 存 应 用 程序 状态 ， 以 在 UI 页 面 上 正确 显示 信息 

之 了 

2 if (!appInfo.isFinished) { 

3: appInfo.removeExecutor (exec) 

24. } 

0s exec.worker.removeExecutor (exec) 

26. 

2 val normalExit = exitStatus == Some (0) 

2 // 只 重 试 一 定 次 数 ， 这 样 就 不 会 进入 无 限 循环 。 重 要 提示 : 此 代码 路 径 不 是 通过 测 
// 试 执行 的 ， 改 变 庄 条 件 时 要 小 心 
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30 

< if (!'normalExit 

32: && appInfo.incrementRetryCount () >= MAX EXECUTOR RETRIES 

33= && MAX EXECUTOR RETRIES >= 0) { //< 0 disables this 

application-killing path 

34. Val execs = appInfo.executors.values 

SSE if (!execs.exists( .state == ExecutorState.RUNNING)) { 

36: logError(s"Application ${appInfo.desc.name} with ID 

${appInfo.id} failed "+ 

3 s"${appInfo.retryCount} times; removing it") 

206. removeApplication (appInfo, ApplicationState.FAILED) 

39. } 

40. } 

41. } 

外 schedule () 

43 . case None => 

44. logWarning(s"Got status update for unknown executor 

$appId/$execId") 
45. } 


6.3.2 Driver 和 Master 交互 原理 解析 


Driver 和 Master 交互 ，Master 是 一 个 消息 循环 体 。 本 节 讲 解 Driver 消息 循环 体 的 产生 过 
程 ，Driver 消息 循环 体 生成 之 后 ， 就 可 以 与 Master 互相 通信 了 。 

Spark 应 用 程序 提交 时 ， 我 们 会 提交 一 个 spark-submit 脚本 。spark-submit 脚本 中 直接 运 
行 了 org.apache.spark.deploy.SparkSubmit 对 象 。Spark-submit 脚本 内 容 如 下 所 示 。 
. #!/usr/bin/env bash 
。 SPARK HOME="$ (cd "‘dirname "$0"°"/..; pwd)" 
. export PYTHONHASHSEED=0 


exec "S$SPARK HOME"/bin/spark-class org.apache.spark.deploy.SparkSubmit 
"$@"// 运 行 SparkSubmit 
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进入 到 SparkSubmit 中 ，main 函数 代码 如 下 所 示 。 
SparkSubmit.scala 的 源码 如 下 。 


cmwN 


def main(args: Array[String]): Unit = { 


// 由 启动 main 函数 传 入 的 参数 构建 SparkSubmitRrguments 对 象 
val appArgs = new SparkSubmitArguments (args) 
// 打 印 参数 信息 
if (appArgs.verbose) { 
printSstream.println (appArgs) 
. 
appArgs.action match { 
// 提 交 ， 调 用 submit 方法 
case SparkSubmitAction.SUBMIT => submit (appArgs) 
// 杀 死 ， 调 用 kil1 方法 
case SparkSubmitAction.KILL => kill (appArgs) 
// 请 求 状态 ， 调 用 requestStatus 方法 
case SparkSubmitAction.REQUEST STATUS => requestStatus (appArgs) 
} 
} 


上 面 的 代码 中 , spark-submit 脚本 提交 的 命令 行 参数 通过 main 函数 的 args 获取 , 并 将 args 
参数 传 入 SparkSubmitArguments 中 完成 解析 。 最 后 通过 匹配 appArgs 参数 中 的 action 类 型 ， 
执行 submit、kill、requestStatus 操作 。 

进入 到 SparkSubmitArguments 中 ， 分 析 一 下 参数 的 解析 过 程 。SparkSubmitArguments 中 
的 关键 代码 如 下 所 示 。 
SparkSubmitArguments.scala 的 源码 如 下 。 


co ~awm 心 wNP 


ke 


// 调 用 parse 方法 ， 从 命令 行 解析 出 各 个 参数 


try { 
parse (args.asJava) 
ycatch { 
// 捕 获 到 I1legalArgumentException， 打 印 错误 并 退出 
case e: IllegalArgumentException => 
SparkSubmit.pPrintErrorRandExit (e.getMessage()) 


} 
// 合 并 默认 的 Spark 配置 项 ， 使 用 传 入 的 配置 覆盖 默认 的 配置 
mergeDefaultSparkProperties () 


// 从 sparkProperties 移 除 不 是 “spark. ”为 开始 的 配置 


ignoreNonSparkProperties () 


// 加 载 系统 环境 变量 中 的 配置 信息 


loadEnvironmentArguments () 
// 验 证 参数 是 否 合法 


validateArguments () 


在 上 面 的 代码 中 ，parse(args.toList) 将 会 解析 命令 行 参数 ， 通 过 mergeDefaultSpark- 
Properties 合并 默认 配置 ， 调 用 ignoreNonSparkProperties 方法 忽略 不 是 以 “spark.” 为 开始 的 
配置 ， 方 法 loadEnvironmentArguments 加 载 系统 环境 变量 ， 最 后 调用 validateArguments 方法 
检验 参数 的 合法 性 。 这 些 配置 如 何 提交 呢 ? main 函数 中 由 case SparkSubmitAction.SUBMIT 
=> submit(appArgs) 这 句 代码 判断 是 否 提交 参数 并 执行 程序 ， 如 果 匹 配 到 SparkSubmit- 
Action.SUBMIT， 则 调用 submit(appArgs) 方 法 ， 参 数 appArgs 是 SparkSubmitArguments 类 型 ， 
appArgs 中 包含 了 提交 的 各 种 参数 ， 包 括 命令 行 传 入 以 及 默认 的 配置 项 。 








“a 








submit(appArgs) 方 法 主要 完成 两 件 事 情 : 

(1) 准备 提交 环境 。 

(2) 执行 main 方法 ， 完 成 提交 。 

首先 来 看 Spark 中 是 如 何 准备 环境 的 。 在 submit(appArgs) 方 法 中 ， 有 如 下 源码 。 
SparkSubmit.scala 的 源码 如 下 。 


i 


4. 


private def submit (args: SparkSubmitArguments): Unit = { 
val (childArgs, childClasspath, sysProps, childMainClass) = 
prepareSubmitEnvironment (args) 
runMain (childArgs, childClasspath, sysProps, childMainClass, 
args.verbose) 


这 段 代 码 中 ， 调 用 prepareSubmitEnvironment(args) 方 法 ， 完 成 提交 环境 的 准备 。 该 方法 
返回 一 个 四 元 Tuple， 分 别 表示 子 进程 参数 、 子 进程 classpath 列表 、 系 统 属 性 map、 子 进程 
main 方法 。 完 成 了 提交 环境 的 准备 工作 后 ， 接 下 来 就 启动 子 进程 ， 在 Standalone 模式 下 ， 启 
动 的 子 进程 是 org.apache.spark.deploy ,Client 对 象 。 具 体 的 执行 过 程 在 mnMain 函数 中 ， 关 键 
代码 如 下 所 示 。 

SparkSubmit.scala 的 源码 如 下 。 





1. private def runMain( 
这 childArgs: Seql[lString], 
3 childClasspath: Seq[String], 
4. sysProps: Map[String, String], 
-人 childMainClass: String, 
6 Verbose: Boolean): Unit = { 
半 
8 Thread.currentThread. setContextClassLoader (loader) // 获 得 classLoader 
9. for (jar <- childclasspath) { // 遍 历 cClasspath 列表 
1 局 addJarToClasspath (jar, loader) 
// 使 用 loader 类 加 载 器 将 jar 包 依赖 加 入 Classpath 
Ls 1 
for ((key, value) <- sysProps) { 
// 将 sysProps 中 的 配置 全 部 设置 到 System 全 局 变量 中 
三 System. setProperty (key, value) 
14. h 
5 var mainClass: Class[ ] = null 
6. mainClass = Utils.classForName (childMainClass)// 获 取 启 动 的 MainClass 
Te // 得 到 启动 的 对 象 的 main 方法 
8 . val mainMethod = mainClass.getMethod("main", new Array[String] 
(0) .getClass) 
A // 使 用 反射 执行 main 方法 ， 并 将 chilgArgs 作为 参数 传 入 该 main 方法 
2 mainMethod.invoke (null, childArgs.toArray) 
21. } 


在 上 面 的 代码 中 , 使 用 Utils 工具 提供 的 classForName 方法 , 找到 主 类 , 然后 在 mainClass 
上 调用 getMethod 方法 得 到 main 方法 ， 最 后 在 mainMethod 上 调用 invoke 执行 main 方法 。 
需要 注意 的 是 ， 执 行 invoke 方法 同时 传 入 了 childArgs 参数 ， 这 个 参数 中 保留 了 配置 信息 。 
Utils.classForName(childMainClass) 方 法 将 会 返回 要 执行 的 主 类 ， 这 里 的 childMainClass 是 哪 
一 个 类 呢 ? 其 实 , 这 个 参数 在 不 同 的 部 署 模式 下 是 不 一 样 的 , standalone 模式 下 , childMainClass 
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指 的 是 org.apache.spark.deploy.Client 类 ， 从 源码 中 可 以 找到 依据 ， 源 码 如 下 所 示 。 
SparkSubmit.scala 的 源码 如 下 。 


5 


WN 


// 在 prepareSubmitEnvironment 方法 中 判断 是 否 为 Standalone 集群 模式 


if (args.isStandaloneCluster) { 


// 判 断 使 用 Rest， 使 用 Rest childMainCclass 为 org.apache.spark.deploy 
//.rest.RestSubmissionClient 
if (args.useRest) { 
childMainClass = "org.apache.spark.deploy.rest.RestSubmissionClient" 
childArgs += (args.primaryResource, args.mainClass) 
} else { 
// 非 Rest，childMainClass 为 org.apache.spark.deploy.Client 
childMainClass = "org.apache.spark.deploy.Client" 
if (args.supervise) { childArgs += "--supervise" } 
// 设 置 driver memory 
Option (args.driverMemory) .foreach { m=> chilgdArgs += ("--memory", m) } 
// 设 置 driver cores 
Option (args.driverCores) .foreach { c => chilgdArgs += ("--cores", c) } 
childArgs += "launch" 
childArgs += (args.master, args.primaryResource, args.mainClass) 


if (args.childArgs != null) { 
childArgs ++= args.childArgs 
} 
} 


在 上 面 的 代码 中 ,程序 首先 根据 args.isStandaloneCluster 判断 部 署 模式 , 如 果 是 standalone 
模式 并 且 不 使 用 REST 服务 , childMainClass = "org.apache.spark.deploy.Client"。 从 上 述 代码 中 
可 以 看 出 ，childArgs 中 存 入 了 Executor 的 memory 配置 和 cores 配置 。 与 ranMain 方法 中 描 
述 一 样 ， 程 序 将 启动 org.apache.spark.deploy.Client 类 ， 并 运行 主 方法 。Client 类 中 做 了 哪些 
事情 ? 先 来 看 这 个 类 是 怎样 完成 调用 的 。 下 面 是 Client 对 象 及 主 方法 。 

Client.scala 的 源码 如 下 。 


20k 


object Client { 


def main(args: Array[String]) { 


// 若 sys 中 不 包含 SPARK_SUBMIT， 则 打印 警告 信息 

if (!sys.props.contains ("SPARK SUBMIT")) { 
println ("WARNING: This client is deprecated and will be removed in 
a future version of Spark") 
println("Use ./bin/spark-submit with \"--master spark://host: 
Port\™™*) 

} 

//scalastyle:on println 

// 创 建 SparkConf 对 象 

val conf = new SparkConf () 

// 创 建 ClientArguments 对 象 ， 代 表 Driver 端的 参数 


val driverArgs = new ClientArguments (args) 


// 设 置 RPC 请 求 超时 时 间 为 10s 
if (!conf.contains ("spark.rpc.askTimeout")) { 
conf.set ("spark.rpc.askTimeout", "10s") 
} 
Logger .getRootLogger.setLevel (driverArgs.logLevel) 


// 使 用 RpcEnv 的 create 创建 RPC 环境 


val rpcEnv = 
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2 RpcEnv.create ("driverClient", Utils.localHostName(), 0, conf, new 
SecurityManager (conf)) 

225 

223» // 得 到 master 的 URL 并 得 到 Master 的 Endpoints， 用 于 同 Master 通信 

24. val masterEndpoints = driverArgs.masters.map (RpcAddress .fromSparkURL).. 

2235. map (rpcEnv .setupEndpointRef( , Master.ENDPOINT NAME)) 

2 rpcEnv.setupEndpoint ("client", new ClientEndpoint (rpcEnv, driverArgs, 


masterEndpoints, conf)) 


27. // 等 待 rpcEnv 的 终止 


2 rpcEnv.awaitTermination () 

ES } 

Sy 

上 面 的 代码 中 ， 首 先 实例 化 出 一 个 SparkConfig 对 象 ， 通 过 这 个 配置 对 象 ， 可 以 在 代码 
中 指定 一 些 配置 项 ， 如 appName、Master 地 址 等 。val driverArgs = new ClientArguments(args) 
使 用 传 入 的 args 参数 构建 一 个 ClientArguments 对 象 ， 该 对 象 同样 保留 传 入 的 配置 信息 ， 如 
Executor memory、Executor cores 等 都 包含 在 这 个 对 象 中 。 

使 用 RpcEnv.create 工厂 方法 ， 创 建 一 个 rpcEnv 成 员 ， 使 用 该 成 员 设置 好 到 Master 的 通 
信 端 点 ， 通 过 该 端点 实现 同 Master 的 通信 。Spark 2.0 中 默认 采用 Netty 框架 来 实现 远程 过 程 
调用 (Remote Precedure Call，RPC), 通过 使 用 RPC 异步 通信 机 制 ， 完 成 各 节点 之 间 的 通信 。 
在 rpcEnv.setupEndpoint 方法 中 调用 new0) 函 数 创 建 一 个 Driver ClientEndpoint。ClientEndpoint 
是 一 个 ThreadSafeRpcEndpoint 消息 循环 体 ， 至 此 就 生成 了 Driver ClientEndpoint 。 在 
ClientEndpoint 的 onStart 方法 中 向 Master 提交 注册 。 这 里 通过 masterEndpoint 向 Master 发 送 
RequestSubmitDriver(driverDescriptiom) 请 求 ， 完 成 Driver 的 注册 。 

Client.scala 的 onStart 的 源码 如 下 。 


可 Private class ClientEndpoint( 

2 override val rpcEnv: RpcEnv, 

3 driverArgs: ClientArguments, 

4. masterEndpoints: Seq[RpcEndpointRef], 

5 conf: SparkConf) 

6 extends ThreadSafeRpcEndpoint with Logging { 

7 

8 override def onStart(): Unit = { 

9. driverArgs.cmd match { 

Ee 

pb val driverDescription = new DriverDescription( 
driverArgs.jarUrl, 

:号 driverArgs.memory, 

14. driverArgs.cores, 

时 全 driverArgs.supervise, 

6 command) 

全 ayncSendToMasterAndForwardReply[SubmitDriverResponse] ( 
18: RequestSubmitDriver (driverDescription)) 

:局 


Master 收 到 Driver ClientEndpoint 的 RequestSubmitDriver 消息 以 后 ， 就 将 Driver 的 信息 
加 入 到 waitingDrivers 和 drivers 的 数据 结构 中 。 然 后 进行 sheduleO 资 源 分 配 , Master 向 Worker 
发 送 LaunchDriver 的 消息 指令 。 

Masterscala 的 源码 如 下 。 
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case RequestSubmitDriver (description) => 
val driver = createDriver (description) 
persistenceEngine.addDriver (driver) 
waitingDrivers += driver 

drivers.add (driver) 

schedule() 


cawm 必 wm 


在 Client.scala 的 onStart 代码 中 , 提交 的 配置 参数 始终 在 不 同 的 对 象 、 节 点 上 传递 .Master 
把 Driver 加 载 到 Worker 节点 并 启动 , Worker 节 点 上 运行 的 Driver 同样 包含 配置 参数 。 当 Driver 
端的 SparkContext 启动 并 实例 化 DAGScheduler、TaskScheduler 时 ,StandaloneSchedulerBackend 
在 做 另 一 件 事情 一 一 实例 化 StandaloneAppClient，StandaloneAppClient 中 有 StandaloneApp- 
ClientPoint, 也 是 一 个 RPC 端口 的 引用 , 用 于 和 Master 进行 通信 。 在 StandaloneAppClientPoint 
的 onStart 方法 中 ,向 Master 发 送 RegisterApplication(appDescription,selh 请 求 ， Master 节点 收 
到 请 求 并 调用 schedule 方法 ， 向 Worker 发 送 LaunchExecutor(masterUrlLexec.application id， 
exec.id, exec.application.desc, exec.cores, exec.memory) 请 求 , Worker 节点 启动 ExecutorRunner。 
ExecutorRunner 中 启动 CoarseGrainedExecutorBackend 并 向 Driver 注册 。 

在 CoarseGrainedExecutorBackend 的 main 方法 中 ， 有 如 下 所 示 代 码 。 


1. var argv = args.toList // 将 args 转化 成 List 

2 while (!argv.isEmpty) { //argv 不 为 室 ， 则 一 直 循 环 
四 二 argV match { 

4. case ("--driver-url") :: value :: tail => 

Se driverUrl = value // 得 到 driveRurl 

Gs argv = tail 

WY case ("--executor-id") :: value :: tail => 

8. executorId = value // 得 到 executorid 

3 argv = tail 

dds case ("--hostname") :: value :: tail => 

de hostname = value // 得 到 hostname 

2 argv = tail 

ds case ("--cores") :: Value :: tail => 

14. cores = value.toInt // 得 到 配置 的 Executor 核 的 个 数 
5 argv = tail 

6 case ("--app-id") :: value :: tail => 

3 appId = value // 得 到 application 的 id 
8 argv = tail 

19. case ("--worker-url") :: value :: tail => 

2De workerUrl = Some (value) // 得 到 worker 的 url 

之 argv = tail 

这 2 case ("--user-class-path") :: value :: tail => 

23- userClassPath += new URL(value) // 得 到 用 户 类 路 径 

24. argv = tail 

2 case Nil => 

26. case tail => 

275 System.err.println(s"Unrecognized options: ${tail.mkstring(" ")}") 
28. printUsageAndExit () // 打 印 并 退出 

9 } 

30°% } 


从 程序 提交 一 直到 CoarseGrainedExecutorBackend 进程 启动 ， 配 置 参数 一 直 被 传递 。 在 
CoarseGrainedExecutorBackend 中 取出 了 cores 配置 信息 ， 并 通过 run(driverUrl, executorld, 
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hostname, cores, appId, workerUrl, userClassPath) 将 cores 传 入 run 方法 ,CoarseGrainedExecutor- 
Backend 以 进程 的 形式 在 JVM 中 启动 ， 此 时 JVM 的 资源 指 占用 资源 的 数量 并 启动 起 来 。 需 
要 注意 的 是 ， 在 一 个 Worker 节点 上 ， 只 要 物理 内 核 的 个 数 和 内 存 大 小 能 够 满足 Executor 启 
动 要 求 ， 一 个 Worker 节点 上 就 可 以 运行 多 个 Executor。 


6.3.3 Driver 和 Master 交互 源码 详解 


从 Spark-Submit 的 脚本 分 析 ， 提 交 应 用 程序 时 ，Main 启动 的 类 ,也 就 是 用 户 最 终 提交 执 
行 的 类 是 org.apache.spark.deploy.SparkSubmit。 SparkSubmit 的 全 路 径 为 org.apache.spark.deploy. 
SparkSubmit。 SparkSubmit 是 启动 一 个 Spark 应 用 程序 的 主 入 口 点 。 当 集群 管理 器 为 
STANDALONE、 部 署 模 式 为 CLUSTER 时 , 根据 提交 的 两 种 方式 将 childMainClass 分 别 设置 
为 不 同 的 类 ， 同 时 将 传 入 的 args.mainClass (提交 应 用 程序 时 设置 的 主 类 ) 及 其 参数 根据 不 同 
集群 管理 器 与 部 署 模式 进行 转换 ， 并 封装 到 新 的 主 类 所 需 的 参数 中 。 在 REST 方式 (Spark 
1.3+) 方式 中 ，childMainClass 是 "org.apache.spark.deploy.rest.RestSubmissionClient"; 在 传统 
方式 中 ，childMainClass 是 "org.apache.spark.deploy.Client"。 

接 下 来 以 REST 方式 讲解 。 当 提交 方式 为 REST 方式 (Spark 1.3+) 时 ,会 将 应 用 程序 的 
主 类 等 信息 封装 到 RestSubmissionClient 类 中 ， 由 该 类 负责 向 RestSubmissionServer 发 送 提交 
应 用 程序 的 请 求 ， 而 RestSubmissionServer 接收 到 应 用 程序 提交 的 请 求 后 ， 会 向 Master 发 送 
RequestSubmitDriver 消息 ， 然 后 由 Master 根据 资源 调度 策略 ， 启 动 集群 中 相应 的 Driver， 执 
行 提交 的 应 用 程序 。Cluster 部 署 模 式 下 的 部 署 与 执行 框架 如 图 6-3 所 示 。 
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图 6-3 Cluster 部 署 模式 下 的 部 署 与 执行 框架 


为 了 体现 各 个 组 件 间 的 部 署 关系 ， 这 里 以 框架 图 的 形式 进行 描述 ， 对 应 地 ， 可 以 从 时 序 
图 的 角度 去 理解 各 个 类 或 组 件 之 间 的 交互 关系 。 其 中 ， 组 件 Master 和 Worker 的 标注 在 方 框 
的 左上 角 ， 其 他 方 框 表示 一 个 具体 的 实例 。 
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其 中 ，RestSubmissionClient 是 提交 应 用 程序 的 客户 端 处 ， 对 提交 的 应 用 程序 进行 封装 的 
类 。 之 后 各 个 组 件 间 的 交互 流程 分 析 如 下 。 

(1) 第 1 步 constructSubmitRequest， 就 是 在 RestSubmissionClient 实例 中 ,根据 提交 的 应 
用 程序 信息 ， 构 建 出 提交 请 求 。 

(2) 然后 继续 第 2 步 createSubmission， 在 该 步骤 中 癌 RestSubmissionServer 发 送 post 请 
求 ， 即 图 6-3 中 对 应 的 第 3 步 (注意 ， 实 际 上 是 在 第 2 步 中 调用 )。 

(3) RestSubmissionServer 接收 到 post 请 求 后 ， 由 对 应 的 Servlet 进行 处 理 ， 这 里 对 应 为 
StandaloneSubmitRequestServlet， 即 开始 第 4 步 ， 调 用 doPost， 发 送 Post 请 求 。 

(4) doPost 中 继续 第 5 步 handleSubmit， 开 始 处 理 提 交 请 求 。 在 处 理 过 程 中 ， 向 Master 
的 RPC 终端 发 送 消息 RequestSubmitDriver， 对 应 图 中 的 第 6 步 。 

(5) Master 接收 到 该 消息 后 ， 执 行 第 7 步 createDriver， 创 建 Driver， 需 要 由 Master 的 调 
度 机 制 创建 ， 对 应 第 8 步 shedule， 获 取 分 配 的 资源 后 ， 向 Worker (这些 Worker 启动 时 会 注 
册 到 Master 上 ) 的 RPC 终端 发 送 LaunchDriver 消息 。 

(6) Worker 在 RPC 终端 接收 到 消息 后 开始 处 理 ， 实 例 化 一 个 DriverRunner， 并 运行 之 前 
封装 的 应 用 程序 。 


全 注意 ;从 上 面部 署 框架 及 其 术语 解析 部 分 可 以 知道 ， 由 于 提交 的 应 用 程序 在 main 部 分 包 
含 了 SparkContext 实例 ， 因 此 我 们 也 称 之 为 Driver Program， 即 驱动 程序 。 因 此 ， 
在 框架 中 ， 对 应 在 Master 和 Worker 处 都 使 用 Driver， 而 不 是 Application (应 用 
程序 ) 。 


其 中 主要 的 源码 及 其 分 析 如 下 。 
(1) RestSubmissionClient 中 run 方法 的 代码 如 下 所 示 。 
RestSubmissionClient.scala 的 源码 如 下 。 




















中 def run( 

公 appResource: String, 

3 mainClass: String, 

4. appArgs: Array[String], 

5 conf: SparkConf, 

6 env: Map [String，String] = Map()): SubmitRestProtocolResponse = { 
3 val master = conf.getOption("spark.master") .getOrElse { 

8. throw new IllegalArgumentException("'spark.master' must be set.") 
9 } 


0 val sparkProperties = conf.getAll .toMap 

J // 创 建 一 个 Rest 提交 客户 端 

a val client = new RestSubmissionClient (master) 

13. ”// 封 装 应 用 程序 的 相关 信息 ， 包 括 主 资源 、 主 类 等 

14. val submitRequest = client.constructSubmitRequest( 

:hi appResource, mainClass, appArgs, sparkProperties, env) 

16. ”//Rest 提交 客户 端 开始 创建 Submission, 创建 过 程 中 向 RestsubmissionServer 发 送 
//post 请 求 

轩 全 

18 . client.createSubmission (submitRequest) 

19s } 


(2) 收 到 提交 的 Post 请 求 之 后 ，StandaloneSubmitRequestServlet 向 Master 的 RPC 终端 
发 送 RequestSubmitDriver 请 求 ， 代 码 如 下 所 示 。 
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Spark 2.1.1 版 本 StandaloneRestServerscala 的 源码 如 下 。 


了 5 protected override def handleSubmit( 


有 requestMessageJson: String, 

人 局 requestMessage: SubmitRestProtocolMessage, 

4. responseServlet: HttpServletResponse): SubmitRestProtocolResponse 
三 1 

Ds requestMessage match { 

2 case submitRequest: CreateSubmissionRequest => 

7 

8 // 在 这 里 开始 构建 驱动 程序 〈 也 就 是 包含 SparkContext 的 应 用 程序 ) 的 描述 信息 ， 


// 对 应 DriverDescription 实例 并 向 Master 的 RPC 终端 masterEndpoint 发 
// 送 请 求 消息 RequestSubmitDriver 


加 

10. 

11. val driverDescription = buildDriverDescription(submitRequest) 
28 val response = masterEndpoint.askWithRetry[DeployMessages. 

SubmitDriverResponse]( 

3 DeployMessages.RequestSubmitDriver (driverDescription)) 
4. 

总 val submitResponse = new CreateSubmissionResponse 

6. submitResponse.serverSparkVersion = sparkVersion 

I submitResponse.message = response.message 

8E submitResponse.success = response.success 

19. submitResponse.submissionId = response.driverId.orNull 
2 


Spark 2.2.0 版 本 的 StandaloneRestServer.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特 
点 : 上 段 代码 中 第 12 行 masterEndpoint.askWithRetry 方法 调整 为 masterEndpoint.askSync 方法 。 





2 val response = masterEndpoint .askSync [DeployMessages.SubmitDriverResponse] ( 
3 DeployMessages.RequestSubmitDriver (driverDescription)) 
4 


(3) 构建 DriverDescription 的 buildDriverDescription 方法 的 代码 如 下 所 示 。 
StandaloneRestServer.scala 的 源码 如 下 。 


1. DriverDescription private def buildDriverDescription (request: 
CreateSubmissionRequest): DriverDescription = { 


二 

< 加 // 构 建 Command 实例 ， 将 主 类 mainclass 封装 到 DriverWrapper (可 以 通过 jps 查看 ) 
尖 扣 val command = new Command ( 
"org-apache.spark.deploy.worker.DriverWrapper"， 


6. Seq("{{WORKER URL}}", "{{USER JAR}}", mainClass) ++ appArgs, 
//args to the DriverWrapper 

奸 人 environmentVariables, extraClassPath, extraLibraryPath, javaOpts) 

B20 

加 

10. // 构 建 驱 动 程序 的 描述 信息 DriverDescription 

11. new DriverDescription( 

12. appResource, actualDriverMemory, actualDriverCores, actualSuperviseDriver, 
command) 

a } 


(4) Master 接收 RequestSubmitDriver， 处 理 消 息 并 返回 SubmitDriverResponse 消息 。 
Masterscala 的 源码 如 下 。 
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和 case RequestSubmitDriver (description) => 

和 if (state != RecoveryState.ALIVE) { 

号 < Val msg = s"${Utils.BACKUP STANDALONE MASTER PREFIX}: $state. "+ 

> "Can only accept driver submissions in ALIVE state-" 

i context .reply (SubmitDriverResponse (self, false, None, msg)) 

Be } else { 

ge logInfo ("Driver submitted " + description.command.mainClass) 

val driver = createDriver (description) 

局 persistenceEngine.addDriver (driver) 

10. waitingDrivers += driver 

于 本 drivers.add (driver) 

和 schedule() 

13- 

14. // 待 办 事项 :让 提交 的 客户 端 轮 询 master 来 确定 driver 的 当前 状态 。 目 前 使 用 fire 
//and forget 方式 发 送 消息 

5 

16 . 

I context .reply (SubmitDriverResponse (self, true, Some (driver.id), 

85 s"Driver successfully submitted as S${driver.id}")) 

9 } 


(5) Master 的 schedule0: 调度 机 制 的 调度 代码 如 下 所 示 。 

JMaster.scala 的 源码 如 下 。 

private def schedule(): Unit = { 
launchDriver (worker, driver) 


startExecutorsOnWorkers () 


apoODP 


: } 


(6) Worker 上 的 Driver 启动 的 代码 如 下 所 示 。 
Worker.scala 的 源码 如 下 。 


:证 case LaunchDriver (driverId, driverDesc) => 

会 = logInfo(s"Asked to launch driver $driverId") 

32 val driver = new DriverRunner( 

EE conf, 

5 driverId, 

6- workDir, 

We sparkHome, 

Be driverDesc.copy (command = Worker.maybeUpdateSSLSettings 
(driverDesc.command, conf)), 

OF self, 

10. workerUri, 

Ts securityMgr) 

二 2 drivers (driverId) = driver 

医 洒 driver.start() 

14. 

5 coresUsed += driverDesc.cores 

16. memoryUsed += driverDesc.mem 


Driver Client 管理 Driver， 包 括 向 Master 提交 Driver、 请 求 Kill Driver 等 。Driver Client 
与 Master 间 的 交互 消息 如 下 。 
DeployMessages.scala 的 源码 如 下 。 


i //DriverClient <-> Master 
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2. //Driver Client 向 Master 请 求 提交 Driver 
六 属 case class RequestSubmitDriver (driverDescription: DriverDescription) 
extends DeployMessage 


4. //Master 问 Driver Client 返回 注册 是 否 成 功 的 消息 


i case class SubmitDriverResponse( 

6- master: RpcEndpointRef, success: Boolean, driverId: Option[String], 
message: String) 

3 extends DeployMessage 

8. //Driver Client 向 Master 请 求 Kill Driver 

9. case class RequestKillDriver(driverId: String) extends DeployMessage 

10. //Master 回复 Kill Driver 是 否 成 功 

Eb case class Kill1DriverResponse( 

2 master: RpcEndpointRef, driverId: String, success: Boolean, message: 
String) 

13: extends DeployMessage 

14. //Driver Client 向 Master 请 求 Driver 状态 

15. case class RequestDriverStatus (driverId: String) extends DeployMessage 

16. //Master 向 Driver Client 返回 状态 请 求 信息 

17. case class DriverStatusResponse (found: Boolean, state: Option 

[DriverState]， 
18 . workerId: Option[String], workerHostPort: Option[String], exception: 


Option[Exception]) 


Driver 在 handleSubmit 方法 中 向 Master 请 求 提交 RequestSubmitDriver 消息 。 

Master 收 到 Driver StandaloneSubmitRequestServlet 发 送 的 消息 RequestSubmitDriver。 
Master 做 相应 的 处 理 以 后 ， 返 回 Driver StandaloneSubmitRequestServlet 消息 SubmitDriver- 
Response。 

Master 的 源码 如 下 。 


: case RequestSubmitDriver (description) => 

Ze if (state != RecoveryState.ALIVE) { 

3 val msg = s"${Utils.BACKUP STANDALONE MASTER PREFIX}: $state. "+ 

4. "Can only accept driver submissions in ALIVE state." 

号 = context .reply (SubmitDriverResponse (self, false, None, msg)) 

6. } else { 

logInfo("Driver submitted " + description.command.mainClass) 

: 属 val driver = createDriver (description) 

9. persistenceEngine.addDriver (driver) 

10. waitingDrivers += driver 

I drivers.add (driver) 

2 he schedule() 

和 

me // 待 办 事项 :让 提交 的 客户 端 轮 询 master 来 确定 driver 的 当前 状态 ,目前 使 用 fire 
//and forget 方式 发 送 消息 

ES 

ER 

I context .reply (SubmitDriverResponse (self, true, Some (driver.id), 

185 s"Driver successfully submitted as S${driver.id}")) 

a } 


类 似 地 ，Master 收 到 Driver StandaloneKillRequestServlet 方法 中 发 送 的 RequestKillDriver 
消息 , Master 做 相应 的 处 理 以 后 ,返回 Driver StandaloneKillRequestServlet 消息 KillDriverResponse。 
Master 收 到 Driver StandaloneStatusRequestServlet 方法 中 发 送 的 RequestDriverStatus 更 新 消 
息 ,Master 做 相应 的 处 理 以 后 ,返回 Driver StandaloneStatusRequestServlet 消息 DriverStatusResponse。 
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6.4 从 Application 提交 的 角度 重新 审视 Executor 


本 节 从 Application 提交 的 角度 重新 审视 Executor, 彻底 解密 Executor 到 底 是 什么 时 候 启 
动 的 ， 以 及 Executor 如 何 把 结果 交 给 Application 。 


6.4.1 Executor 到 底 是 什么 时 候 启 动 的 


SparkContext 启动 后 ，StandaloneSchedulerBackend 中 会 调用 new0 函 数 创 建 一 个 
StandaloneAppClient，StandaloneAppClient 中 有 一 个 名 叫 ClientEndPoint 的 内 部 类 ， 在 创建 
ClientEndpoint 时 会 传 入 Command 来 指定 具体 为 当前 应 用 程序 启动 的 Executor 进行 的 入 口 类 
的 名 称 为 CoarseGrainedExecutorBackend。ClientEndPoint 继承 自 ThreadSafeRpcEndpoint， 其 
通过 RPC 机 制 完 成 和 Master 的 通信 。 在 ClientEndPoint 的 start 方法 中 ， 会 通过 
registerWithMaster 方法 向 Master 发 送 RegisterApplication 请 求 ，Master 收 到 该 请 求 消息 后 ， 
首先 通过 registerApplication 方法 完成 信息 登记 ， 之 后 将 会 调用 schedule 方法 ， 在 Worker 上 
启动 Executor。Master 对 RegisterApplication 请 求 处 理 源码 如 下 所 示 。 

Master scala 的 源码 如 下 。 














由 case RegisterRpplication(description，driver) => 
2 // 待 办 事项 : 防止 driver 程序 重复 注册 

3 //Master 处 于 STANDBY (备用 ) 状态 ， 不 作 处 理 

‘ if (state == RecoveryState.STANDBY) { 

5 // 忽 略 ， 不 发 送 响应 

1 } else { 

ES logInfo("Registering app " + description.name) 
8. // 由 description 描述 ,构建 ApplicationInfo 

9 val app = createApplication (description, driver) 
10. registerApplication (app) 

LE logInfo ("Registered app " + description.name + " with ID " + app.id) 
加 2 // 在 持久 化 引擎 中 加 入 application 

用 沁 persistenceEngine.addApplication (app) 

14. driver.send (RegisteredApplication (app.id, self)) 
15.  // 调 用 schedule 方法 ,在 worker 节点 上 启动 Executor 

Os schedule() 

直属 } 


在 上 面 的 代码 中 ，Master 匹配 到 RegisterApplication 请 求 ， 先 判断 Master 的 状态 是 否 为 
STANDBY( 备 用 ) 状 态 ， 如 果 不 是 ， 说 明 Master 为 ALIVE 状态 ， 在 这 种 状态 下 调用 
createApplication(description,sender) 方 法 创建 ApplicationInfo, 完成 之 后 调用 persistenceEngine. 
addApplication(app) 方 法 ， 将 新 创建 的 ApplicationInfo 持久 化 ， 以 便 错误 恢复 。 完 成 这 两 步 操 
作 后 ,通过 driver.send(RegisteredApplication(app.id, sel)) 疝 StandaloneAppClient 返回 注册 成 功 
后 ApplicationInfo 的 Id 和 master 的 url 地址。 

ApplicationInfo 对 象 是 对 application 的 描述 ， 下 面 先 来 看 createApplication 方法 的 源码 。 

Master scala 的 源码 如 下 。 


3 Private def createApplication(desc: ApplicationDescription, driver: 
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RpcEndpointRef): 
ApplicationInfo = { 
//ApplicationInfo 创建 时 间 
val now = System.-currentTimeMillis() 
Val date = new Date (now) 
// 由 date 生成 application id 
val appId = newApplicationId (date) 
// 创 建 ApplicationInfo 
new ApplicationInfo (now, appId, desc, date, driver, defaultCores) 


Focwwawmmwm 


Se 


上 面 的 代码 中 ,createApplication 方法 接收 ApplicationDescription 和 ActorRef 两 种 类 型 的 
参数 ， 并 调用 newApplicationId 方法 生成 appId， 关 键 代码 如 下 所 示 。 

1. val appId = "app-$s-%04d".format (CreateDateFormat .format (submitDate), 

nextAppNumber) 

日 代码 所 决定 ，appid 的 格式 形 如 : app-20160429101010-0001。desc 对 象 中 包含 一 些 基 
本 的 配置 ,包括 从 系统 中 传 入 的 一 些 配 置信 息 , 如 appname、maxCores、memoryPerExecutorMB 
等 。 最 后 使 用 desc、date、driver、defaultCores 等 作为 参数 构造 一 个 ApplicatiOnInfo 对 象 并 
有 返回。 函数 返回 之 后 ， 调 用 registerApplication 方法 ， 完 成 application 的 注册 ， 该 方法 是 如 何 
完成 注册 的 ? 方法 代码 如 下 所 示 。 

Master.scala 的 源码 如 下 。 




















I private def registerApplication(app: ApplicationInfo): Unit = { 

2 //Driver 的 地 址 ， 用 于 Master 和 Driver 通信 

三 val appAddress = app.driver.address 

4. // 如 果 addressToApp 中 已 经 有 了 该 Driver 地 址 ， 说 明 该 Driver 已 经 注册 过 了 ， 直 接 
//return 

Se 

if (addressToApp.contains (appAddress)) { 

了 > logInfo("Attempted to re-register application at same address: "+ 

appAddress) 

8. return 

9 } 

10. // 向 度量 系统 注册 

kr applicationMetricsSystem.registerSource (app.appSource) 

12. //apps 是 一 个 HashSet， 保存 数 据 不 能 重复 ， 向 HashSet 中 加 入 app 

33 apps += app 

14. //idToApp 是 一 个 HashMap， 该 HashMap 用 于 保存 id 和 app 的 对 应 关系 

ye idToApp (app.id) = app 

16. //endpointToApp 是 一 个 HashMap， 该 HashMap 用 于 保存 driver 和 app 的 对 应 关系 

DT endpointToApp (app.driver) = app 

18. //addressToApp 是 一 个 HashMap， 记 录 app Driver 的 地 址 和 app 的 对 应 关系 

9 addressToApp (appAddress) = app 

20. /waitingApps 是 一 个 数组 ， 记 录 等 待 调度 的 app 记录 

2 waitingApps += app 

人 225 if (reverseProxy) { 

导演 webUi .addProxyTargets (app.id, app.desc.appUiUr]l) 

24. 上 

二 站 


上 面 的 代码 中 , 首先 通过 app.driver.path.address 得 到 Driver 的 地 址 , 然后 查看 appAddress 
映射 表 中 是 否 已 经 存在 这 个 路 径 ， 如 果 存 在 ， 表 示 该 application 已 经 注册 ， 直 接 返 回 ， 如 果 





“3a 


第 6 章 Spark Application 提交 给 集群 的 原理 和 源码 详解 








不 存在 ， 则 在 waitingApps 数组 中 加 入 该 application， 同 时 在 idToApp、endpointToApp、 
addressToApp 映射 表 中 加 入 映射 关系 。 加 入 waitingApps 数组 中 的 application 等 待 schedule 
方法 的 调度 。 

schedule 方法 有 两 个 作用 : 第 一 ， 完 成 Driver 的 调度 ， 将 waitingDrivers 数组 中 的 Driver 
发 送 到 满足 条 件 的 Worker 上 运行 ; 第 二 ， 在 满足 条 件 的 Worker 节点 上 为 application 启动 
Executor。 


Master scala 的 schedule 方法 的 源码 如 下 。 


于 private def schedule(): Unit = { 
2 

3 launchDriver (worker, driver) 
4 

5 startExecutorsOnWorkers () 

6 } 


在 Master 中 ，schedule 方法 是 一 个 很 重要 的 方法 , 每 一 次 新 的 Driver 的 注册 、application 
的 注册 ， 或 者 可 用 资源 发 生变 动 ， 都 将 调用 schedule 方法 。schedule 方法 用 于 为 当前 等 待 调 
度 的 application 调度 可 用 的 资源 ， 在 满足 条 件 的 Worker 节点 上 启动 Executor。 这 个 方法 还 有 
另外 一 个 作用 ， 就 是 当 有 Driver 提交 的 时 候 ， 负 责 将 Driver 发 送 到 一 个 可 用 资源 满足 Driver 
需求 的 Worker 节点 上 运行 。launchDriver(worker,driver) 方 法 负责 完成 这 一 任务 。 

application 调度 成 功 之 后 ，Master 将 会 为 application 在 Worker 节点 上 启动 Executors, 调 
用 startExecutorsOnWorkers 方法 完成 此 操作 。 

在 scheduleExecutorsOnWorkers 方法 中 ， 有 两 种 启动 Executor 的 策略 : 第 一 种 是 轮流 均 
摊 策 略 (round-robin)， 采 用 回 果 垂 法 人 次 科 流 沟 塘 ， 直到 满足 资源 需求 ， 轮 流 均 摊 策 略 通常 
会 有 更 好 的 数据 本 地 性 ， 因 此 它 是 默认 的 选择 策略 ; 第 二 种 是 依次 全 占 ， 在 usableWorkers 
中 ， 依 次 获取 每 个 Worker 上 的 全 部 资源 ， 直 到 满足 资源 需求 。 

scheduleExecutorsOnWorkers 方法 为 application 分 配 好 逻辑 意义 上 的 资源 后 , 还 不 能 真正 
在 Worker 节点 为 application 分 配 出 资源 ， 需 要 调用 动作 函数 为 application 真正 地 分 配 资源 。 
allocateWorkerResourceToExecutors 方法 的 调用 ， 将 会 在 Worker 节点 上 实际 分 配 资源 。 下 面 
是 allocateWorkerResourceToExecutors 的 源码 。 

Master scala 的 源码 如 下 。 





1. private def allocateWorkerResourceToExecutors ( 

Ca 

站 launchExecutor (worker, exec) 

a 

上 面 代码 调用 了 launchExecutor (worker,exec) 方法 ， 这 个 方法 有 两 个 参数 : 第 一 个 参数 
是 满足 条 件 的 WorkerInfo 信息 ; 第 二 个 参数 是 描述 Executor 的 ExecutorDesc 对 象 。 这 个 方法 
将 会 向 Worker 节点 发 送 LaunchExecutor 的 请 求 ，Worker 节点 收 到 该 请 求 之 后 ， 将 会 负责 启 
动 Executor。launchExecutor 方法 代码 清单 如 下 所 示 。 

Masterscala 的 源码 如 下 。 


2 private def launchExecutor (worker: WorkerInfo, exec: ExecutorDesc): 
Unit = { 
六 logInfo("Launching executor " +exec.fullId + "on worker "+ worker.id) 


3. // 向 WorkerInfo 中 加 入 exec 这 个 描述 Executor 的 ExecutorDesc 对 象 


和 
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人 过 worker .addExecutor (exec) 
5. // 向 worker 发 送 LaunchExecutor 消息 ， 加 载 Executor 消息 中 携带 了 masterUrl 地 址 、 
//application id、Executor id、 Executor 描述 desc、Executor 核 的 个 数 、 Executor 


// 分 配 的 内 存 大 小 
[3 
Rs worker.endpoint.send (LaunchExecutor (masterUT1， 
9 exec.application.id, exec.id, exec.application.desc, exec.cores, 


exec.memory)) 
> // 向 Driver 发 回 ExecutorAdded 消息 ， 消 息 携带 worker 的 id 号、worker 的 host 和 
//port、 分 配 的 核 的 个 数 和 内 存 大 小 

10. exec.application.driver.send!( 

UE: ExecutorAdded (exec.id, worker.id, worker.hostPort, exec.cores, 

exec.memory)) 

2 

launchExecutor 有 两 个 参数 , 第 一 个 参数 是 worker:WorkerInfo, 代表 Worker 的 基本 信息 ; 
第 二 个 参数 是 exec:ExecutorDesc， 这 个 参数 保存 了 Executor 的 基本 配置 信息 ， 如 memory、 
cores 等 。 此 方法 中 有 workerendpoint.send(LaunchExecutor(...))， 向 Worker 发 送 LaunchExecutor 请 
求 ，Worker 收 到 该 请 求 之 后 ， 将 会 调用 方法 启动 Executor。 

向 Worker 发 送 LaunchExecutor 消息 的 同时 ， 通 过 exec.application.driver.send 
(ExecutorAdded(...)) 向 Driver 发 送 ExecutorAdded 消息 ， 该 消息 为 Driver 反馈 Master 都 在 哪 
些 Worker 上 启动 了 Executor，Executor 的 编号 是 多 少 ， 为 每 个 Executor 分 配 了 多 少 个 核 ， 多 
大 的 内 存 以 及 Worker 的 联系 hostport 等 消息 。 

Worker 收 到 LaunchExecutor 消息 会 做 相应 的 处 理 。 首 先 判断 传 过 来 的 masterUrl 是 否 和 
activeMasterUrl 相同 ， 如 果 不 相 同 ， 说 明 收 到 的 不 是 处 于 ALIVE 状态 的 Master 发 送 过 来 的 
请 求 ， 这 种 情况 直接 打印 警告 信息 。 如 果 相 同 ， 则 说 明 该 请 求 来 自 ALIVE Master， 于 是 为 
Executor 创建 工作 目录 ， 创 建 好 工作 目录 之 后 ， 使 用 appid、execid、appDes 等 参数 创建 
ExecutorRunner。 顾 名 思 义 ，ExecutorRunner 是 Executor 运行 的 地 方 ， 在 ExecutorRunner 中 
有 一 个 工作 线程 ， 这 个 线程 负责 下 载 依赖 的 文件 ， 并 启动 CoarseGaindExecutorBackend 进程 
该 进程 单独 在 一 个 JVM 上 运行 。 下 面 是 ExecutorRunner 中 的 线程 启动 的 源码 。 

ExecutorRunnerscala 的 源码 如 下 。 





1 private[worker] def start() { 

/ /创建 线程 

< workerThread = new Thread ("ExecutorRunner for " + fullId) { 

4 // 线 程 run 方法 中 调用 fetchAndRunExecutor 

5 override def run() { fetchAndRunExecutor() } 

6. } 

也 // 启 动 线程 

8 workerThread.start () 

3 

To // 终 止 回调 函数 ， 用 于 杀 死 进程 

了 shutdownHook = ShutdownHookManager -addShutdownHook { () => 

了 2 // 这 是 可 能 的 ， 调 用 fetchAndRunExecutor 之 前 ，state 将 是 ExecutorState . 
//RUNNING。 在 这 种 情况 下 ， 我 们 应 该 设置 “状态 ”为 “失败 ” 

人 if (state == ExecutorState.RUNNING) { 

14. state = ExecutorState.FAILED 

LS } 

16. killProcess (Some ("Worker shutting down")) } 

Ls 


Se 
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上 面 代码 中 定义 了 一 个 Thread， 这 个 Thread 的 run 方法 中 调用 fetchAndRunExecutor 方 
法 ，fetchAndRunExecutor 负责 以 进程 的 方式 启动 ApplicationDescription 中 携带 的 
org.apache.spark.executorCoarseGrainedExecutorBackend 进程 。 

其 中 ，fetchAndRunExecutor 方法 中 的 CommandUtils buildProcessBuilder(appDesc.command， 
传 入 的 入 口 类 是 "org.apache.spark.executorCoarseGrainedExecutorBackend"， 当 Worker 节点 中 
启动 ExecutorRunner 时 ，ExecutorRunner 中 会 启动 CoarseGrainedExecutorBackend 进程 ， 在 
CoarseGrainedExecutorBackend 的 onStart 方法 中 ， 癌 Driver 发 出 RegisterExecutor 注册 请 求 。 

CoarseGrainedExecutorBackend 的 onStart 方法 的 源码 如 下 。 


是 override def onStart () { 

2 

3 driver = Some (ref) 

4.  // 向 driver 发 送 ask 请 求 ， 等 待 driver 回应 

5 ref.ask[Boolean] (RegisterExecutor (executorId, self, hostname, 
cores, extractLogUrls)) 

| 


Driver 端 收 到 注册 请 求 ， 将 会 注册 Executor 的 请 求 。 
CoarseGrainedSchedulerBackend.scala 的 receiveAndReply 方法 的 源码 如 下 。 


1 override def receiveAndReply (context: RpcCallContext): 
PartialFunction[Any, Unit] = { 

2 

case RegisterExecutor (executorId, executorRef, hostname, cores, 

logUrls) => 

| 

executorRef .send (RegisteredExecutor) 

EE 


如 上 面 代 码 所 示 , Driver 向 CoarseGrainedExecutorBackend 发 送 RegisteredExecutor 消息 ， 
CoarseGrainedExecutorBackend 收 到 RegisteredExecutor 消息 后 将 会 新 建 一 个 Executor 执 行 器 ， 
并 为 此 Executor 充当 信使 , 与 Driver 通信 。CoarseGrainedExecutorBackend 收 到 RegisteredExecutor 
消息 的 源码 如 下 所 示 。 

CoarseGrainedExecutorBackend.scala 的 receive 的 源码 如 下 。 


本 override def receive: PartialFunction[Any, Unit] = { 

i case RegisteredExecutor => 

区 昨 logInfo("Successfully registered with driver") 

4. try { 

5. // 收 到 RegisteredExecutor 消息 ， 立 即 创建 Executor 

6 executor = new Executor (executorId, hostname, env, userClassPath, 
isLocal = false) 

he eateh | 

85 case NonFatal (e) => 

用 exitExecutor (1, "Unable to create executor due to " + e.getMessage, e) 

0% ; 


从 上 面 的 代码 中 可 以 看 到 ，CoarseGrainedExecutorBackend 收 到 RegisteredExecutor 消息 
后 ， 将 会 新 创建 一 个 org.apache.spark.executor.Executor 对 象 ， 至 此 Executor 创建 完毕 。 


a 
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6.4.2 ”Executor 如 何 把 结果 交 给 Application 


CoarseGrainedExecutorBackend 给 DriverEndpoint 发 送 StatusUpdate 传输 执行 结果 ， 
DriverEndpoint 会 把 执行 结果 传递 给 TaskSchedulerImpl 处 理 , 然后 交 给 TaskResultGetter 内 部 
通过 线程 分 别处 理 Task 执行 成 功 和 失败 的 不 同情 况 ， 然 后 告诉 DAGScheduler 任务 处 理 结束 
的 状况 。 

CoarseGrainedSchedulerBackend.scala 中 DriverEndpoint 的 receive 方法 的 源码 如 下 。 


:I override def receive: PartialFunction[Any, Unit] = { 

2 case StatusUpdate (executorId, taskId, state, data) => 

三 全 scheduler.statusUpdate (taskId, state, data.value) 

a if (TaskState.isFinished(state)) { 

Si executorDataMap .get (executorId) match { 

6 case Some (executorInfo) => 

executorInfo.freeCores += scheduler.CPUS PER TASK 
8. makeOffers (executorId) 

本 各 case None => 

10 . // 忽 略 更 新 ， 因 为 我 们 不 知道 Executor 

FE logWarning(s"Ignored task status update ($taskId state $state)"+ 
he s"from unknown executor with ID SexecutorId") 

二 3 } 

14. ¥ 


DriverEndpoint 的 receive 方法 中 的 StatusUpdate 调用 scheduler.statusUpdate, 然后 释放 资 

再 次 进行 资源 调度 makeOffers(executorId)。 

TaskSchedulerImpl 的 statusUpdate 中 : 

口 如 果 是 TaskState.LOST， 则 记录 原因 ， 将 Executor 清理 掉 。 

口 如 果 是 TaskState.isFinished, 则 从 taskSet 中 运行 的 任务 中 清除 掉 ,调用 taskResultGetter. 
enqueueSuccessfulTask 处 理 。 

口 如 果 是 TaskState.FAILED、TaskState.KILLED、TaskState.LOST, 调用 taskResultGetter. 
enqueueFailedTask 处 理 。 


源 


6.5 Spark 1.6 RPC 内 幕 解密 : 运行 机 制 、 源 码 详解 、Netty 
与 Akka 等 


Spark 1.6 推出 了 以 RpcEnv、RPCEndpoint、 RPCEndpointRef 为 核心 的 新 型 架构 下 的 RPC 
通信 方式 ， 就 目前 的 实现 而 言 ， 其 底层 依旧 是 Akka。Akka 是 基于 Actor 的 分 布 式 消息 通信 
系统 ， 而 在 Spark 1.6 中 封装 了 Akka， 提 供 更 高 层 的 Rpc 实现 ， 目 的 是 移 除 对 Akka 的 依赖 ， 
为 扩展 和 自 定义 Rpc 打下 基础 。 

Spark 2.0 版 本 中 Rpc 的 变化 情况 如 下 。 

口 SPARK-6280: 从 Spark 中 删除 Akka systemName。 

口 SPARK-7995: 删除 AkkaRpcEnv， 并 从 Core 的 依赖 中 删除 Akka。 
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口 SPARK-7997: 删除 开发 人 员 apl SparkEnv.actorSystem 和 AkkaUtils。 


RpcEnv 是 一 个 抽象 类 abstract class， 传 入 SparkConf。RPC 环境 中 [RpcEndpoint] 需 要 注 
册 自 己 的 名 字 [RpcEnv] 来 接收 消息 。[RpcEnv] 将 处 理 消 息 发 送 到 [RpcEndpointRef] 或 远程 节 
点 ， 并 提供 给 相应 的 [RpcEndpoint] 。[RpcEnv]] 未 被 捕获 的 异常 ，[RpcEnv] 将 使 用 

















[RpcCallContext.sendFailure] 发 送 异 常 给 发 送 者 ， 如 果 没 有 这 样 的 发 送 者 ， 则 记录 日 志 
NotSerializableException。 
RpcEnv.scala 的 源码 如 下 。 
: 必 private[spark] abstract class RpcEnv(conf: SparkConf) { 
过 
3 private[spark] val defaultLookupTimeout = RpcUtils.lookupRpcTimeout (conf) 
贡 


RpcCallContext.scala 处 理 异 常 的 方法 包括 reply、sendFailure、senderAddress， 其 中 reply 
是 给 发 送 者 发 送 一 个 信息 。 如 果 发 送 者 是 [RpcEndpoint], 它 的 [RpcEndpoint.receive] 将 被 调用 。 
其 中 ，RpcCallContext 的 地 址 RpcAddress 是 一 个 case class， 包 括 hostPort、toSparkURL 


等 成 员 。 
RpcAddress.scala 的 源码 如 下 。 


private[spark] case class RpcAddress (host: String, port: Int) { 
def hostPort: String = host + ":" + port 

/** 返 回 一 个 字符 串 ， 该 字符 串 的 形式 为 : spark://host:port*/ 

def toSparkURL: String = "spark://" + hostPort 

override def toString: String = hostPort 


} 


wm 心 wm 


RpcAddress 伴生 对 象 object RpcAddress 属于 包 org.apache.spark.rpc, fromURIString 方法 
从 String 中 提取 出 RpcAddress; fromSparkURL 方法 也 是 从 String 中 提取 出 RpcAddress。 说 
明 : case class RpcAddress 通过 伴生 对 象 object RpcAddress 的 方法 调用 , case class RpcAddress 
也 有 自己 的 方法 fromURIString、fromSparkURL， 而 且 方 法 ftomURIString、fromSparkURL 





的 返回 值 也 是 RpcAddress。 
伴生 对 象 RpcAddress 的 源码 如 下 。 


1. private[spark] object RpcAddress { 
2 /** 返 回 [RpcAddress] 为 代表 的 uri */ 


< 司 def fromURIString(uri: String): RpcAddress = { 

4 val uriobj = new java.net.URI (uri) 

RpcAddress (uriObj .getHost, uriObj .getPort) 

6. } 

办 /** 返 回 [RpcAddress]， 编 码 的 形式 : spark://host:port */ 
8 def fromSparkURL (sparkUrl: String): RpcAddress = { 
9 val (host, port) = Utils .extractHostPortFromSparkUr1 (SparkUTr1) 
10. RpcAddress (host, port) 

和 二 | 

2 

RpcEnv 解析 : 


(1) RpcEnv 是 RPC 的 环境 (相当 于 Akka 中 的 ActorSystem) ， 所 有 的 RPCEndpoint 都 
需要 注册 到 RpcEnv 实例 对 象 中 (注册 的 时 候 会 指定 注册 的 名 称 ， 这 样 客户 端 就 可 以 通过 名 
称 查 询 到 RpcEndpoint 的 RpcEndpointRef 引用 ， 从 而 进行 通信 ) ， 在 RpcEndpoint 接收 到 消 


二 
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息 后 


理 ( 














会 调用 receive 方法 进行 处 理 。 
(2) RpcEndpoint 如 果 接 收 到 需要 reply 的 消息 ， 就 会 交 给 自己 的 receiveAndReply 来 处 
回复 时 是 通过 RpcCallContext 中 的 relpy 方法 来 回复 发 送 者 的 ) ， 如 果 不 需 要 reply， 就 








交 给 receive 方法 来 处 理 。 


认 用 


(3) RpcEnvFactory 是 负责 创建 RpcEnv 的 ， 通 过 create 方法 创建 RpcEnv 实例 对 象 ， 默 
Netty。 
RpcEnv 示意 图 如 图 6-4 所 示 。 


re 





图 6-4 RPCEnv 示意 图 


回 到 RpcEnv.scala 的 源码 ， 首 先 调用 RpcUtils.lookupRpcTimeout(confj， 返 回 RPC 远程 
查找 时 默认 Spark 的 超时 时 间 。 方法 lookupRpcTimeout 中 构建 了 一 个 RpcTimeout, 定义 


spark.rpc.lookupTimeout。spark.network.timeout 的 超时 时 间 是 120s。 


RpcUtils.scala 的 lookupRpcTimeout 方法 的 源码 如 下 。 


:| def lookupRpcTimeout (conf: SparkConf): RpcTimeout = { 

RpcTimeout (conf, Seq("spark.rpc.lookupTimeout", "spark.network 
.timeout"), "120s") 

3. ii 


进入 RpcTimeout， 进 行 RpcTimeout 关联 超时 的 原因 描述 ， 当 TimeoutException 发 生 的 


时 候 ， 关 于 超时 的 额外 的 上 下 文 将 包含 在 异常 消息 中 。 


RpcTimeout.scala 的 源码 如 下 。 


证 private[spark] class RpcTimeout (val duration: FiniteDuration, val 
timeoutProp: String) 


Ss extends Serializable { 

3 

攻 /** 修 正 TimeoutException 标准 的 消息 包括 描述 */ 

5 private def createRpcTimeoutException (te: TimeoutException) : 
RpcTimeoutException = { 

6. new RpcTimeoutException (te.getMessage + ". This timeout is controlled 


by " + timeoutProp, te) 
} 


其 中 的 RpcTimeoutException 继承 自 TimeoutException。 


ws 
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天 Private[rpc] class RpcTimeoutException (message: String, cause: 
TimeoutException) 
2 extends TimeoutException (message) { initCause (cause) } 


其 中 的 TimeoutException 继承 自 Exception。 


1 public class TimeoutException extends Exception { 
人 

3 public TimeoutException (String message) { 

A super (message); 
a 

6 








可 到 RpcTimeout.scala， 其 中 的 addMessageIfTimeonut 方法 ， 如 果 出 现 超时 ， 将 加 入 这 些 
信息 。 
RpcTimeout.scala 的 addMessageIfTimeonut 的 源码 如 下 。 








def addqMessageIfTimeout [T] : PartialFunction[Throwable，T] = { 
// 蜡 常 已 被 转换 为 一 个 RpcTimeoutException， 就 抛 出 它 
case rte: RpcTimeoutException => throw rte 
// 其 他 TimeoutException 异常 转换 为 修改 的 消息 RpcTimeoutException 
case te: TimeoutException => throw createRpcTimeoutException (te) 


} 


au 必 wN 


RpcTimeout.scala 中 的 awaitResult 方法 比较 关键 : awaitResult 一 直 等 结果 完成 并 获得 结 
果 ， 如 果 在 指定 的 时 间 没 有 返回 结果 ， 就 抛 出 异常 [RpcTimeoutException]。 
Spark 2.1.1 版 本 的 RpcTimeout.scala 的 源码 如 下 。 


3 def awaitResult[T] (future: Future[T]): T= { 

之 val wrapAndRethrow: PartialFunction[Throwable, T] = { 
< case NonFatal (七 ) => 

4. throw new SparkException("Exception thrown in awaitResult", t+) 
5 } 

6. ry 

y 册 //scalastyle: 关闭 awaitresult 

8. Await.result (future, duration) 

9. //scalastyle: 打开 awaitresult 

10. } catch addMessageIfTimeout.orElse (wrapAndRethrow) 
Fr We 

2 


Spark 2.2.0 版 本 的 RpcTimeout.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 
代码 中 第 2 一 10 行 整体 被 替换 ， 调 整 为 调用 ThreadUtils.awaitResult(future, duration)。 


i i 

2 * 等 待 完成 的 结果 并 返回 结果 。 如 果 结果 不 在 这 个 超时 timeout 范围 内 ， 就 抛 出 一 个 异常 
* [RpcTimeoutException] 表 示 配 置 控制 超时 

:本 六 

4. * @param future `“Future ”将 被 等 待 

与 二 * @throws RpcTimeoutException 如 果 在 等 待 指 定 的 时 间 future 还 没准 备 好 

6 从 

这 def awaitResult[T] (future: Future[T]): T={ 

8 try 

9. ThreadUtils.awaitResult (future, duration) 

= 1 } catch addMessageIfTimeout 

有 } 


ys 
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其 中 的 fature 是 Future[T] 类 型 ， 继 承 自 Awaitable。 
1 trait Future [+T] extends Awaitable[T] 
Awaitable 是 一 个 trait， 其 中 的 ready 方法 是 指 Duration 时 间 片 内 ，Awaitable 的 状态 变 成 


completed 状态 ， 就 是 ready。 在 Awaitresult 中 ，result 本 身 是 阻塞 的 。 
Awaitable.scala 的 源码 如 下 。 





3 trait Awaitable[+T] { 

s 让 人 GE Duration) (implicit permit: CanAwait): this.type 

到 et 

6 def result (atMost: Duration) (implicit permit: CanAwait): T 

, } 

回 到 RpcEnv.scala 中 ， 其 中 endpointRef 方法 返回 我 们 注册 的 RpcEndpoint 的 引用 ， 是 代 


理 的 模式 ,我 们 要 使 用 RpcEndpoint, 是 通过 RpcEndpointRef 来 使 用 的 .Address 方法 是 RpcEnv 

监听 的 地 址 ; setupEndpoint 方法 注册 时 根据 RpcEndpoint 名 称 返 回 RpcEndpointRef。 fileServer 

返回 用 于 服务 文件 的 文件 服务 器 实例 。 如 果 RpcEnv 不 以 服务 器 模式 运行 ， 可 能 是 null 值 。 
RpcEnv.scala 的 源码 如 下 。 


: private[spark] abstract class RpcEnv (conf: SparkConf) { 

2 

3 private[spark] val defaultLookupTimeout = RpcUtils.lookupRpcTimeout 
(conf) 

1 

本 private[rpc] def endpointRef (endpoint: RpcEndpoint): RpcEndpointRef 


6. def address: RpcAddress 
7. def setupEndpoint (name: String, endpoint: RpcEndpoint): RpcEndpointRef 


RpcEnv.scala 中 的 RpcEnvFileServer 方法 中 的 RpcEnvConfig 是 一 个 case class。 
RpcEnvFileServer 的 源码 如 下 。 


汪汪 Private[spark] trait RpcEnvFileServer { 
和 def adqFile(file: File): String 

< 

4. private[spark] case class RpcEnvConfig( 
与 conf: SparkConf, 

6 name: String, 

亲人 bindAddress: String, 

8 advertiseAddress: String, 

9 BPorts, Tnts 

05 securityManager: SecurityManager, 

: 电 全 clientMode: Boolean) 


RpcEnv 是 一 个 抽象 类 , 其 具体 的 子 类 是 NettyRpcEnv。Spark 1.6 版 本 中 包括 AkkaRpcEnv 
和 NettyRpcEnv 两 种 方式 。Spark 2.0 版 本 中 只 有 NettyRpcEnv。 
下 面 看 一 下 RpcEnvFactory。RpcEnvFactory 是 一 个 工厂 类 ， 创 建 [RpcEnv]， 必 须 有 一 个 
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空 构造 男 数 ， 以 便 可 以 使 用 反射 创建 。create 根据 具体 的 配置 ， 反 射出 具体 的 实例 对 象 。 
RpcEndpoint 方法 中 定义 了 receiveAndReply 方法 和 receive 方法 。 
RpcEndpoint scala 的 源码 如 下 。 


5 
Es 
EE 
4 
5 


PpWoOJa 
VC dy a 


private[spark] trait RpcEnvFactory { 


def create (Config: RpcEnvConfig): RpcEnv 


private[spark] trait RpcEndpoint { 


final def self: RpcEndpointRef = { 
require(rpcEnv != null, "rpcEnv has not been initialized") 
rpcEnv.endpointRef (this) 


def receive: PartialFunction[Any, Unit] = { 
case => throw new SparkException(self + " does not implement 
'receive'") 


def receiveAndReply(context: RpcCallContext): PartialFunction[Any, 
Unit] = { 
case _ => context.sendFailure (new SparkException(self + " won't reply 
anything")) 


Master 继承 自 ThreadSafeRpcEndpoint， 接 收 消息 使 用 receive 方法 和 receiveAndReply 


方法 。 


其 中 ，ThreadSafeRpcEndpoint 继承 自 RpcEndpoint: ThreadSafeRpcEndpoint 是 一 个 trait， 
需要 RpcEnv 线程 安全 地 发 送 消息 给 它 。 线 程 安全 是 指 在 处 理 下 一 个 消息 之 前 通过 同样 的 
[ThreadSafeRpcEndpoint] 处 理 一 条 消息 。 换 句 话 说 ， 改 变 [ThreadSafeRpcEndpoint] 的 内 部 字段 
在 处 理 下 一 个 消息 是 可 见 的 ，[ThreadSafeRpcEndpoint] 的 字段 不 需要 volatile 或 equivalent， 
不 能 保证 对 于 不 同 的 消息 在 相同 的 [ThreadSafeRpcEndpoint] 线 程 中 来 处 理 。 





| 





到 RpcEndpoint.scala, 





private[spark] trait ThreadSafeRpcEndpoint extends RpcEndpoint 








点 看 一 下 receiveAndReply 方法 和 receive 方法 。receive 方法 


处 理 从 [RpcEndpointRef.send] 或 者 [RpcCallContext.reply] 发 过 来 的 消息 ， 如 果 收 到 一 个 不 匹配 
的 消息 ，[SparkException] 会 抛 出 一 个 异常 onError 。receiveAndReply 方法 处 理 从 
[RpcEndpointRef.ask] 发 过 来 的 消息 ， 如 果 收 到 一 个 不 匹配 的 消息 ，[SparkException] 会 抛 出 一 
个 异常 onError。receiveAndReply 方法 返回 PartialFunction 对 象 。 

RpcEndpoint scala 的 源码 如 下 。 





2 


人 
4. 





def receive: PartialFunction[Any, Unit] = { 
case _ => throw new SparkException(self + " does not implement 


'receive'") 


1 
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Be 


def receiveAndReply(context: RpcCallContext): PartialFunction[Any, 
Uniel = 4 
case => context.sendFailure (new SparkException (self + " won't reply 
anything")) 
} 


在 Master 中 ，Receive 方法 中 收 到 消息 以 后 ， 不 需要 回复 对 方 。 
Master.scala 的 Receive 方法 的 源码 如 下 。 


oooODp 


override def receive: PartialFunction[Any, Unit] = { 
case ElectedLeader => 
recoveryCompletionTask = forwardMessageThread.schedule (new Runnable { 
override def run(): Unit = Utils.tryLogNonFatalError { 
self.send (CompleteRecovery) 
3 
}, WORKER TIMEOUT MS, TimeUnit .MILLISECONDS) 


case CompleteRecovery => completeRecovery() 


case RevokedLeadership => 
logError ("Leadership has been revoked -- master shutting down.") 
System.exit (0) 


case RegisterApplication (description, driver) => 


schedule() 


在 Master 中 ，receiveAndReply 方法 中 收 到 消息 以 后 ， 都 要 通过 context.reply 回复 对 方 。 
在 Master 中 ,RpcEndpoint 如 果 接 收 到 需要 reply 的 消息 ,就 会 交 给 自己 的 receiveAndReply 


来 处 理 ( 








回复 时 是 通过 RpcCallContext 中 的 relpy 方法 来 回复 发 送 者 的 ) ， 如 果 不 需 要 reply， 


就 交 给 receive 方法 来 处 理 。 
RpcCallContext 的 源码 如 下 。 


: 
> 
个 


co ~] Oo 


private[spark] trait RpcCallContext { 


/** 
* 回 复 消息 的 发 送 者 。 如 果 发 送 者 是 [RpcEndpoint]， 其 [RpcEndpoint .receive] 
* 将 被 调用 
*/ 

def replyl(response: Any): Unit 


/冰冰 
* 向 发 送 方 报告 故障 
yy 
def sendFailure(e: Throwable): Unit 
/冰冰 
* 此 消息 的 发 送 者 
人 
def senderAddress: RpcAddress 
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到 RpcEndpoint.scala，RpcEnvFactory 是 一 个 trait， 负 责 创建 RpcEnv， 通 过 create 方 
法 创建 RpcEnv 实例 对 象 ， 默 认 用 Netty。 
RpcEndpoint scala 的 源码 如 下 。 








private[spark] trait RpcEnvFactory { 


3 
上 
= def create (Config: RpcEnvConfig): RpcEnv 
| 

RpcEnvFactory 的 create 方法 没有 具体 的 实现 。 下 面 看 一 下 RpcEnvFactory 子 类 
NettyRpcEnvFactory 中 create 的 具体 实现 ， 使 用 的 方式 为 nettyEnv。 

NettyRpcEnv.scala 的 create 方法 的 源码 如 下 。 


了 def create (Config: RpcEnvConfig): RpcEnv = { 
a val sparkConf = config.conf 
3 // 在 多 个 线程 中 使 用 JavaSerializerInstance 是 安全 的 。 然 而 ， 如 果 将 来 计划 支持 


//KryoSerializer， 必 须 使 用 ThreadLocal 来 存储 SerializerInstance 


4 

5 val javaSerializerInstance = 

6 new JavaSerializer (sparkConf) .newInstance () .asInstanceOf 
[JavaSerializerInstance] 


了 全 val nettyEnv = 
请 new NettyRpcEnv (sparkConf, javaSerializerInstance, 
config.advertiseAddress, 
9. config.securityManager) 
Ds if (!config.clientMode) { 
4s Val startNettyRpcEnv: Int => (NettyRpcEnv, Int) = { actualPort => 
2 nettyEnv.startServer (config.bindAddress, actualPort) 
和 (nettyEnv, nettyEnv.address.port) 
14. } 
Ds Cry 丰 
Lm Utils.startServiceOnPort (config.port, startNettyRpcEnv, sparkConf, 
config.name). 1 
a } catch { 
了 case NonFatal (e) => 
Ji9e nettyEnv. shutdown () 
号 0 throw e 
21-。 } 
人 22 } 
2 nettyEnv 
242 
25.°} 
在 Spark 2.0 版 本 中 回溯 一 下 NettyRpcEnv 的 实例 化 过 程 。 在 SparkContext 实例 化 时 调用 
createSparkEnv 方法 。 


SparkContext.scala 的 源码 如 下 。 


_env = createSparkEnv( conf, isLocal, listenerBus) 
SparkEnv.set (_env) 


private[spark] def createSparkEnv( 
conf: SparkConf, 
isLocal: Boolean, 
listenerBus: LiveListenerBus): SparkEnv = { 


oawm 必 wm 
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人生 SparkEnv.createDriverEnv (conf, isLocal, listenerBus, SparkContext. 
numDriverCores (master)) 

Ls } 

2 

Re 


SparkContext 的 createSparkEnv 方法 中 调用 了 SparkEnv.createDriverEnv 方法 。 下 面 看 一 
下 createDriverEnv 方法 的 实现 ， 其 调用 了 create 方法 。 
SparkEnv.scala 的 createDriverEnv 的 源码 如 下 。 


I private[spark] def createDriverEnv( 

2 

二 局 Create( 

4. conf, 

5 SparkContext .DRIVER IDENTIFIER, 

[es bindAddress, 

站 全 advertiseAddress, 

8. port, 

9 isLocal, 

05 numCores, 

Ts ioEncryptionKey, 

125 listenerBus = listenerBus, 

5 mockOutputCommitCoordinator = mockOutputCommitCoordinator 

14. ) 

sl 

Se 

17. private def create( 

机 

De val rpcEnv = RpcEnv.create (systemName, bindAddress, advertiseAddress, 
porty conmfy 

205 securityManager, clientMode = !isDriver) 

i 


在 RpcEnv.scala 中 ，creat 方法 直接 调用 new0 函 数 创建 一 个 NettyRpcEnvFactory， 调 用 
NettyRpcEnvFactory().create 方法 ，NettyRpcEnvFactory 继承 自 RpcEnvFactory。 在 Spark 2.0 
中 ，RpcEnvFactory 直接 使 用 NettyRpcEnvFactory 的 方式 。 

RpcEnv.scala 的 源码 如 下 。 


1. private[spark] object RpcEnv { 


2 

< 虹 

A def createl( 

上 name: String, 

局 bindAddress: String, 

J advertiseAddress: String, 

8 BPort: Tnty 

2 conf: SparkConf, 

Os securityManager: SecurityManager, 

J clientMode: Boolean): RpcEnv = { 

2 val config = RpcEnvConfig (conf, name, bindAddress, advertiseAddress, 
port, securityManager, 

3 clientMode) 

new NettyRpcEnvFactory() .create (config) 

Ds | 


NettyRpcEnvFactory().create 的 方法 如 下 。 
NettyRpcEnv.scala 的 源码 如 下 。 
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2 
3 
14. 


L538 
16. 
Ts 
85 
9 
205 
之 
2 
3 


private[rpc] class NettyRpcEnvFactory extends RpcEnvFactory with 
Logging { 


def create(config: RpcEnvConfig): RpcEnv = { 
val nettyEnv = 
new NettyRpcEnv (sparkConf, javaSerializerInstance, 
config.advertiseAddress, 
config.securityManager) 
if (!config.clientMode) { 
val startNettyRpcEnv: Int => (NettyRpcEnv, Int) = { actualPort => 
nettyEnv.startServer (config.bindAddress, actualPort) 
(nettyEnv, nettyEnv.address.port) 
} 
try { 
Utils.startServiceOnPort (config.port, startNettyRpcEnyv, 
sparkConf, config.name). 1 
meatch 1 
case NonFatal (e) => 
nettyEnv.shutdown () 
throw e 
FE 
nettyEnv 
} 
} 


在 NettyRpcEnvFactory().create 中 调用 new0 函 数 创 建 一 个 NettyRpcEnv。NettyRpcEnv 传 
入 SparkConf 参数 ， 包 括 fleServer、startServer 等 方法 。 
NettyRpcEnv 的 源码 如 下 。 


oanONDP 


NettyRpcEnv.scala 的 startServer 中 ， 通 过 transportContext.createServer 创建 Server， 使 用 
dispatcher.registerRpcEndpoint 方法 dispatcher 注册 RpcEndpoint。 在 createServer 方法 中 调 


Private [netty] class NettyRpcEnv( 
Val conf: SparkConf, 
javaSerializerInstance: JavaSerializerInstance, 
host: String, 
securityManager: SecurityManager) extends RpcEnv (conf) with Logging { 


override def fileServer: RpcEnvFileServer = streamManager 
def startServer (bindAddress: String, port: Int): Unit = { 
val bootstraps: java.util.List[TransportServerBootstrap] = 
if (securityManager.isAuthenticationEnabled()) { 
java.util.Arrays.asList(new SaslServerBootstrap(transportConf, 
securityManager)) 
} else { 
java.util.Collections.emptyList() 
于 
server = transportContext.createServer (bindAddress, port, bootstraps) 
dispatcher.registerRpcEndpoint( 
RpcEndpointVerifier.NAME, new RpcEndpointVerifier(this, dispatcher)) 
i 

















new0 函 数 创建 一 个 TransportServer。 
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TransportContext 的 createServer 方法 的 源码 如 下 。 


3 public TransportServer createServer!( 

2 String host, int port, List<TransportServerBootstrap> bootstraps) { 
二 return new TransportServer (this, host, port, rpcHandler, bootstraps); 
4. } 


TransportServer.java 的 源码 如 下 。 


1. public TransportServer( 

嘱 TransportContext context, 

3 String hostToBind, 

a int portToBind, 

可 RpcHandler appRpcHandler, 

6 List<TransportServerBootstrap> bootstraps) { 

且 this .context = context; 

8 this.conf = context.getConf(); 

人 this .appRpcHandler = appRpcHandler; 

0. this.bootstraps = Lists.newArrayList (Preconditions.checkNotNull 
(bootstraps)); 


i 

之 5 try { 

E 演 init (hostToBind, portToBind); 
本 } catch (RuntimeException e) { 
5 JavaUtils.closeQuietly (this); 
入 throw e; 

字 } 

8. } 


TransportServer.java 中 的 关键 方法 是 init， 这 是 Netty 本 身 的 实现 内 容 。 
TransportServer.java 中 的 init 的 源码 如 下 。 





private void init(String hostToBind, int portToBind) { 


pe 

a IOMode ioMode = IOMode.valueOf (conf.ioMode()); 

4. EventLoopGroup bossGroup = 

Ss NettyUtils.createEventLoop (ioMode, conf.serverThreads(), 
conf.getModuleName () + "-server"); 

6. EventLoopGroup workerGroup = bossGroup; 

y 


接 下 来 ， 我 们 看 一 下 RpcEndpointRef。RpcEndpointRef 是 一 个 抽象 类 ， 是 代理 模式 。 
RpcEndpointRef.scala 的 源码 如 下 。 


1. private[spark] abstract class RpcEndpointRef (conf: SparkConf) 

区 extends Serializable with Logging { 

三 区 

4. private[this] val maxRetries = RpcUtils.numRetries (conf) 

5 private[this] val retryWaitMs = RpcUtils.retryWaitMs (conf) 

各 private[this] val defaultAskTimeout = RpcUtils.askRpcTimeout (conf) 
0 

8. def send (message: Any): Unit 

9. def ask[T: ClassTag] (message: Any, timeout: RpcTimeout): Future[T] 
E11 1 


NettyRpcEndpointRef 是 RpcEndpointRef 的 具体 实现 子 类 。ask 方法 通过 调用 nettyEnv.ask 
传递 消息 。RequestMessage 是 一 个 case class。 
Spark 2.1.1 版 本 的 NettyRpcEnv.scala 的 NettyRpcEndpointRef 的 源码 如 下 。 
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1. private[netty] class NettyRpcEndpointRef( 

和 2 @transient Private val conf: SparkConf, 

:他 endpointAddress: RpcEndpointAddress, 

4. @transient @volatile private var nettyEnv: NettyRpcEnv) 

有 extends RpcEndpointRef (conf) with Serializable with Logging { 

| 

ee override def ask[T: ClassTag] (message: Any, timeout: RpcTimeout): 
Future[T] = { 

8 nettyEnv.ask (RequestMessage (nettyEnv.address, this, message), timeout) 

9 | 

LO a 


Spark 2.2.0 版 本 的 NettyRpcEnv.scala 的 NettyRpcEndpointRef 的 源码 与 Spark 2.1.1 版 本 
相 比 具有 如 下 特点 。 

口 上 段 代 码 中 第 3 行 endpointAddress 增加 了 private 访问 限制 。 

口 上 段 代 码 中 第 5 行 删 掉 了 Serializable 及 Logging 的 继承 。 

| private[netty] class NettyRpcEndpointRef( 

2 @transient private val conf: SparkConf, 

3 private val endpointAddress: RpcEndpointAddress, 
4 


@transient @volatile private var nettyEnv: NettyRpcEnv) extends 
RpcEndpointRef (conf) { 


下 面 从 实例 的 角度 来 看 RPC 的 应 用 : 

RpcEndpoint 的 生命 周期 :构造 (constructor) -> 启动 (onStart) 、 消 息 接 收 (receive、 
receiveAndReply ) 、 停 止 (onStop) 。 

Master 中 接收 消息 的 方式 有 两 种 : CDreceive 接收 消息 不 回复 ， @receiveAndReply 通过 
context.reply 的 方式 回复 消息 。 例 如 ，Worker 发 送 Master 的 RegisterWorker 消息 ， 当 Master 
注册 成 功 ，Master 就 返回 Worker RegisteredWorker 消息 。 

Worker 启动 时 ， 从 生命 周期 的 角度 ，Worker 实例 化 的 时 候 提 交 Master 进行 注册 。 

Worker 的 onStart 的 源码 如 下 。 
override def onStart() { 


registerWithMaster () 


metricsSystem.registerSource (workerSource) 

metricsSystem.start () 

//Attach the worker metrics servlet handler to the web ui after the 
//metrics system is started. 

8. metricsSystem.getServletHandlers.foreach (webUi .attachHandler) 

95 } 


AMONDP 


进入 registerWithMaster 方法 : 

Worker 的 registerWithMaster 的 源码 如 下 。 

{I private def registerWithMaster() { 

2 

ie registerMasterFutures = tryRegisterAllMasters() 

a es 

进入 tryRegisterAllMasters 方法 : 在 IpcEnv.setupEndpointRef 中 根据 masterAddress、 
ENDPOINT NAME 名 称 获取 RpcEndpointRef. 

Spark 2.1.1 版 本 的 Worker 的 tryRegisterAllMasters 的 源码 如 下 。 
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private def tryRegisterAllMasters(): Array[JFuture[ ]] = { 

yA 

:人 val masterEndpoint = rpcEnv.setupEndpointRef (masterAddress, 
Master .ENDPOINT NAME) 

registerWithMaster (masterEndpoint) 

Se 


Spark 2.2.0 版 本 的 Worker 的 tryRegisterAllMasters 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 
下 特点 :上 段 代 码 中 第 4 行 registerWithMaster 方法 调整 为 sendRegisterMessageToMaster 方法 。 


7 private def tryRegisterAllMasters(): Array[JFuture[ ]] = { 

pa 

3 val masterEndpoint = rpcEnv.setupEndpointRef (masterAddress, 
Master .ENDPOINT NAME) 

3 sendRegisterMessageToMaster (masterEndpoint) 

Ss 


基于 masterEndpoint， 使 用 registerWithMaster 方法 注册 。registerWithMaster 方法 中 通过 
ask 方法 发 送 RegisterWorker 消息 ， 并 要 求 发 送 返回 结果 ， 返 回 的 消息 类 型 为 
RegisterWorkerResponse。 然 后 进行 模式 匹配 ， 如 果 成 功 ， 就 handleRegisterResponse。 如 果 失 
Spark 2.1.1 版 本 的 Worker.scala 的 registerWithMaster 的 源码 如 下 。 








1. private def registerWithMaster (masterEndpoint: RpcEndpointRef): Unit = { 
公 masterEndpoint .ask[RegisterWorkerResponse] (RegisterWorker( 

3 workerId, host, port, self, cores, memory, workerWebUiUr])) 

罗 .onComplete { 

5 // 这 是 一 个 非常 快 的 行动 ， 所 以 可 以 用 ThreadUtils.sameThread 

去 case Success (msg) => 

7 Utils.tryLogNonFatalError { 

8 handleRegisterResponse (msg) 

9 


OF case Failure(e) => 

Ee logError(s"Cannot register with master: ${masterEndpoint 
.address}", e) 

人 2 System.exit (1) 

证 } (ThreadUtils.sameThread) 

A } 


handleRegisterResponse 方法 中 的 模式 匹配 , 收 到 RegisteredWorker 消息 进行 相应 的 处 理 。 
Worker.scala 的 handleRegisterResponse 的 源码 如 下 。 





private def handleRegisterResponse (msg: RegisterWorkerResponse): Unit = 
synchronized { 
msg match { 
case RegisteredWorker (masterRef, masterWebUiUr1l) => 


2 
3 
2 
加 

Spark 2.1.1 版 本 中 ，registerWithMaster 方法 中 的 Worker 发 送 RegisterWorker 消息 给 
Master， 此 时 ，Worker 同步 收 到 Master 回复 的 RegisterWorkerResponse 消息 以 后 还 须根 据 成 
功 或 失败 的 情况 ， 通 过 handleRegisterResponse 进行 后 续 的 处 理 。 

Spark 2.2.0 版 本 将 registerWithMaster 方法 调整 为 sendRegisterMessageToMaster 方法 。 
sendRegisterMessageToMaster 方法 中 的 Worker 发 送 RegisterWorker 消息 给 Master 以 后 , 就 完 
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成 此 次 注册 。Master 节点 收 到 RegisterWorker 消息 另行 处 理 ， 如 果 注 册 成 功 ，Master 就 发 送 
Worker 节点 成 功 的 RegisteredWorker 消息 ; 如 果 注 册 失 败 ，Master 就 发 送 Worker 节点 失败 的 
RegisterWorkerFailed 消息 。 


1 private def sendRegisterMessageToMaster (masterEndpoint: 
RpcEndpointRef): Unit = { 


和 masterEndpoint.send (RegisterWorker( 
3 workerId, 

4. host, 

5 port, 

6: self, 

a cores, 

8. memory, 

9 workerWebUiUrl, 

Os masterEndpoint .address)) 

了 


6.6 本 章 总 结 


本 章 讲解 了 Spark Application 提交 给 集群 的 原理 和 源码 , 主要 内 容 包 括 Spark Application 
到 底 是 如 何 提交 给 集群 的 ? Spark Application 是 如 何 向 集群 申请 资源 的 ? 从 Application 提交 
的 角度 重新 审视 Driver, Driver 到 底 是 什么 时 候 产生 的 以 及 Driver 和 Master 交互 通信 。 同时， 
本 章 也 从 Application 提交 的 角度 重新 审视 Executor，Executor 到 底 是 什么 时 候 启 动 的 ? 以 及 
Executor 如 何 把 结果 交 给 Application。 最 后 ， 本 章 还 讲解 了 Spark 1.6 RPC 内 幕 解密 : 运行 机 
制 、 源 码 详解 、Netty 与 Akka 等 内 容 。 
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本 章 对 Shuffle 原理 和 源码 进行 剖析 。7.1 节 讲 解 MapReduce 的 Shuffle 架构 ; 7.2 节 讲 解 
Shuffle 的 框架 、 框 架 内 核 、Shuffle 数据 读 写 的 源码 解析 ; 7.3 节 讲 解 Hash Based Shuffle 内 核 
及 Hash Based Shuffle 数据 读 写 的 源码 解析 ; 7.4 节 讲 解 Sorted Based Shuffle 内 核 及 数据 读 写 
的 源码 解析 ; 7.5 节 讲 解 Tungsten Sorted Based 内 核 及 Tungsten Sorted Based 数据 读 写 的 源码 
解析 ; 7.6 节 讲 解 Shuffle 与 Storage 模块 间 的 交互 以 及 Shuffle 注册 的 交互 ，Shuffle 读 写 数据 
的 交互 ， 并 讲解 BlockManager 架构 原理 及 源码 ， 解 密 BlockManager 进 阶 的 相关 内 容 。 


7.1 概 述 . 


在 MapReduce 框架 中 ，Shuffle 阶段 是 连接 Map 和 Reduce 之 间 的 桥梁 ，Map 阶段 通过 
Shuffle 过 程 将 数据 输出 到 Reduce 阶 段 中 。 由 于 Shuffle 涉 及 磁盘 的 读 写 和 网 络 IO, 因此 Shuffle 
性 能 的 高 低 直 接 影响 整个 程序 的 性 能 。Spark 本 质 上 也 是 一 种 MapReduce 框架 ， 因 此 也 会 有 
自己 的 Shuffle 过 程 实现 。 

在 学 习 Shuffle 的 过 程 中 , 通常 都 会 引用 HadoopMapReduce 框架 中 的 Shuffle 过 程 作为 入 
门 或 比较 ， 同 时 也 会 引用 在 Hadoop MapReduce 框架 中 的 Shuffle 过 程 中 常用 的 术语 。 下 面 是 
网 络 上 描述 该 过 程 的 经 典 的 框架 图 ， 如 图 7-1 所 示 。 














map 任 务 





图 7-1 Hadoop MapReduce 框架 中 的 Shuffle 框架 


其 中 ,Shuffle 是 MapReduce 框架 中 的 一 个 特定 的 阶段 ， 介 于 Map 阶段 和 Reduce 阶段 之 
间 。Map 阶段 负责 准备 数据 ，Reduce 阶段 则 读 取 Map 阶段 准备 的 数据 ， 然 后 进一步 对 数据 
进行 处 理 ， 即 Map 阶段 实现 Shuffle 过 程 中 的 数据 持久 化 《〈 即 数据 写 )， 而 Reduce 阶段 实现 
Shuffle 过 程 中 的 数据 读 取 。 

在 图 7-1 中 ，Mapper 端 与 Reduce 端 之 间 的 数据 交互 通常 都 伴随 着 一 定 的 网 络 WO， 因 此 
应 数据 的 序列 化 与 压缩 等 技术 也 是 Shuffle 中 必 不 可 少 的 一 部 分 。 可 以 根据 特定 场景 选取 合 
适 的 序列 化 方式 与 压缩 算法 进行 调 优 , 在 此 仅 给 出 相关 的 配置 属性 的 简单 描述 , 具体 见 表 7-1 
所 示 。 
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表 7-1 Shuffle 序 列 化 方式 与 压缩 算法 的 配置 属性 








配置 属性 默 认 值 描 述 
org.apache.spark.serializer. 
JavaSerializer( 当 使 用 Spark i pe 由 佳 输 或 以 上 
i SQL Thrift Server 时 ， 默 认 序列 化 器 , 当 需 要 在 网 络 中 传输 或 以 序列 化 方 


tp ee he 式 缓存 时 ， 用 于 序列 化 对 象 所 需 的 类 


KryoSerializer) 





是 否 对 Map 端 输出 文件 进行 压缩 。 为 了 减少 
spark.shuffle.compress true 网 络 IO 等 , 通常 会 使 用 压缩 。 对 应 的 压缩 算 
法 由 spark.io.compression.codec 指定 

在 数据 Spil 过 程 中 是 否 进行 压缩 的 控制 。 对 
应 的 讨 缩 算法 由 sparkio.compression.codec 指定 
该 codec 用 于 压缩 内 部 数据 ， 如 RDD 分 区 数 


spark.shuffle.spill.compress 


Snappy 据 、 广 播 变量 的 数据 以 及 Shuffle 的 输出 数据 。 
(Spark 2.0 版 本 默认 是 1z4 默认 情况 下 ，Spark 提供 3 种 codecs: 1z4、lzf 
spark.io.compression.codec | 压缩 格式 DEFAULT 和 snappy。 指 定时 也 可 以 指定 完整 类 名 。 如 : 


COMPRESSION CODEC = org.apache.spark.io.LZACompressionCodec 、 
"1lz4") org.apache.spark.io.LZFCompressionCodec 和 


org.apache.spark.io.SnappyCompressionCodec 





可 以 基于 图 7-1, 抽象 地 去 理解 Shuffle 阶段 的 实现 过 程 , 但 在 具体 实现 上 , 不 同 的 Shuffle 
设计 会 有 不 同 的 实现 细节 。 


7.2 ”Shuffle 的 框架 


本 节 讲 解 Shuffle 的 框架 、Shuffle 的 框架 内 核 .Shuffle 数据 读 写 的 源码 解析 。Spark Shuffle 
从 基于 Hash 的 Shuffle， 引 入 了 Shuffle Consolidate 机 制 〈 即 文件 合并 机 制 ) ， 演 进 到 基于 
Sort 的 Shuffle 实 现 方式 。 随 着 Tungsten 计 划 的 引入 与 优化 ,引入 了 基于 Tungsten-Sort 的 Shuffle 
实现 方式 。 


7.2.1 Shuffle 的 框架 演进 


Spark 的 Shuffle 框架 演进 历史 可 以 从 框架 本 身 的 演进 、Shuffle 具体 实现 机 制 的 演进 两 部 
分 进行 解析 。 

框架 本 身 的 演进 可 以 从 面向 接口 编程 的 原则 出 发 ， 结 合 Build 设计 模式 进行 理解 。 整 个 
Spark 的 Shuffle 框架 从 Spark 1.1 版 本 开始 ， 提 供 便于 测试 、 扩 展 的 可 插 拔 式 框架 。 

而 对 应 Shuffle 的 具体 实现 机 制 的 演进 部 分 ， 可 以 跟踪 Shuffle 实现 细节 在 各 个 版 本 中 的 
变更 。 具体 体现 在 Shuffle 数据 的 写 入 或 读 取 ， 以 及 读 写 相 关 的 数据 块 解析 方式 。 下 面 简单 描 
述 一 下 整个 演进 过 程 。 

在 Spark 1.1 之 前 ，Spark 中 只 实现 了 一 种 Shuffle 方式 ， 即 基于 Hash 的 Shuffle。 在 基于 
Hash 的 Shuffle 的 实现 方式 中 ， 每 个 Mapper 阶段 的 Task 都 会 为 每 个 Reduce 阶段 的 Task 生 
成 一 个 文件 ， 通 常会 产生 大 量 的 文件 〈 即 对 应 为 MXR 个 中 间 文 件 ， 其 中 ，M 表示 Mapper 
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阶段 的 Task 个 数 , R 表示 Reduce 阶段 的 Task 个 数 )。 伴 随 大 量 的 随机 磁盘 IO 操作 与 大 量 的 
内 存 开销 。 

为 了 缓解 上 述 问题 ， 在 Spark 0.8.1 版 本 中 为 基于 Hash 的 Shuffle 的 实现 引入 了 Shuffle 
Consolidate 机 制 〈 即 文件 合并 机 制 )， 将 Mapper 端 生成 的 中 间 文 件 进行 合并 的 处 理 机 制 。 通 
过 将 配置 属性 spark.shuffle.consolidateFiles 设置 为 true, 减少 中 间 生 成 的 文件 数量 。 通 过 文件 
合并 ,可 以 将 中 间 文 件 的 生成 方式 修改 为 每 个 执行 单位 (类 似 于 Hadoop 的 Slot) 为 每 个 Reduce 
阶段 的 Task 生成 一 个 文件 。 其 中 ， 执 行 单位 对 应 为 : 每 个 Mapper 阶段 的 Cores 数 /每 个 Task 
分 配 的 Cores 数 〈 默 认为 1)。 最 终 可 以 将 文件 个 数 从 MXR 修改 为 EXC/TXR， 其 中 , E 表 
示 Executors 个 数 ，C 表示 可 用 Cores 个 数 ，T 表示 Task 分 配 的 Cores 个 数 。 

基于 Hash 的 Shuffle 的 实现 方式 中 ， 生 成 的 中 间 结 果 文 件 的 个 数 都 会 依赖 于 Reduce 阶 
段 的 Task 个 数 ， 即 Reduce 端的 并 行 度 ， 因 此 文件 数 仍然 不 可 控 ， 无 法 真正 解决 问题 。 为 了 
更 好 地 解决 问题 , 在 Spark 1.1 版 本 引入 了 基于 Sort 的 Shuffle 实现 方式 ， 并 且 在 Spark 1.2 版 
本 之 后 ， 默 认 的 实现 方式 也 从 基于 Hash 的 Shuffle， 修 改 为 基于 Sort 的 Shuffle 实现 方式 ， 即 
使 用 的 ShuffleManager 从 默认 的 hash 修改 为 sort。 首 先 ， 每 个 Mapper 阶段 的 Task 不 会 为 每 
个 Reduce 阶段 的 Task 生成 一 个 单独 的 文件 ， 而 是 全 部 写 到 一 个 数据 (Data) 文件 中 ， 同 时 
生成 一 个 索引 (Index) 文件 ，Reduce 阶段 的 各 个 Task 可 以 通过 该 索引 文件 获取 相关 的 数据 。 
避免 产生 大 量 文件 的 直接 收益 就 是 降低 随机 磁盘 IO 与 内 存 的 开销 。 最 终生 成 的 文件 个 数 减 
少 到 2M， 其 中 M 表示 Mapper 阶段 的 Task 个 数 ， 每 个 Mapper 阶段 的 Task 分 别 生成 两 个 文 
件 (1 个 数据 文件 、1 个 索引 文件 )， 最 终 的 文件 个 数 为 M 个 数据 文件 与 M 个 索引 文件 。 因 
此 ， 最 终 文件 个 数 是 2XM 个 。 

随 着 Tungsten 计划 的 引入 与 优化 , 从 Spark 1.4 版 本 开始 CTungsten 计划 目前 在 Spark 1.5 
与 Spark 1.6 两 个 版 本 中 分 别 实现 了 第 一 与 第 二 两 个 阶段 )， 在 Shuffle 过 程 中 也 引入 了 基于 
Tungsten-Sort 的 Shuffle 实现 方式 , 通过 Tungsten 项 目 所 做 的 优化 , 可 以 极 大 提高 Spark 在 数 
据 处 理 上 的 性 能 。 

为 了 更 合理 、 更 高 效 地 使 用 内 存 ， 在 Spark 的 Shuffle 实现 方式 演进 过 程 中 ， 引 进 了 外 部 
排序 等 处 理 机 制 ( 针 对 基于 Sort 的 Shuffle 机 制 。 基 于 Hash 的 Shuffle 机 制 从 最 原始 的 全 部 
放 入 内 存 改 为 记录 级 写 入 )。 同 时 ， 为 了 保存 Shuffle 结果 提高 性 能 以 及 支持 资源 动态 分 配 等 
特性 ， 也 引进 了 外 部 Shuffle 服务 等 机 制 。 





7.2.2 Shuffle 的 框架 内 核 


Shuffle 框架 的 设计 可 以 从 两 方面 理解 : 一 方面 ， 为 了 Shuffle 模块 更 加 内 聚 并 与 其 他 模 
块 解 厢 ， 另 一 方面 ， 为 了 更 方便 蔡 换 、 测 试 、 扩 展 Shuffle 的 不 同 实现 方式 。 从 Spark 1.1 版 
本 开始 ， 引 进 了 可 插 拔 式 的 Shuffle 框架 (通过 将 Shuffle 相关 的 实现 封装 到 一 个 统一 的 对 外 
接口 ， 提 供 一 种 具体 实现 可 插 拔 的 框架 )。Spark 框架 中 ， 通 过 ShufleManager 来 管理 各 种 不 
同 实现 机 制 的 Shuffle 过 程 ， 由 ShuffleManager 统一 构建 、 管 理 具体 实现 子 类 来 实现 Shuffle 
框架 的 可 插 拔 的 Shuffle 机 制 。 

在 详细 描述 Shuffle 框架 实现 细节 之 前 ， 先 给 出 可 插 拔 式 Shuffle 的 整体 架构 的 类 图 ， 如 
图 7-2 所 示 。 
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构建 时 ， 注 册 到 ShufneManager， 并 得 到 
ShufeHandle，ShuffleManaser 根 据 


ShufneHandle 获 取 Writer 和 Reader 


ShufneManager 
ShufeDependency[K, V. C] rogershunielK. VC 


shuflleld getWriter[K, V] 
shufneHandle getReader[K, C] 
unregSisterShufie 
-=----------9 shufleBlockResolver ResultTask 
上 Stop() 












ShufneMapTask 










stageld: Int 
TunTask(context TaskContext) 






















stageld: Int 
runTask(context TaskContext) 












ShufmeReader[K, C] 
read(): Iterator[Product2[K, C]] 








ShufneBlockResolver 









getBlockData(blockld: ShufneBlockld): ManagedBuffer 
Stop(); Unit 








ShuflleWriter[K, V] 


write(records: Iterator[Product2[K, VJ]]): Unit 
stop(success: Boolean) Option[MapStatus] 












图 7-2 可 插 拔 式 Shuffle 的 整体 架构 的 类 图 


在 DAG 的 调度 过 程 中 ，Stage 阶段 的 划分 是 根据 是 否 有 Shuffle 过程 ， 也 就 是 当 存 在 
ShuffleDependency 的 宽 依赖 时 ， 需 要 进行 Shuffle， 这 时 会 将 作业 〈Job) 划分 成 多 个 Stage。 
对 应 地 ， 在 源码 实现 中 ， 通 过 在 划分 Stage 的 关键 点 一 一 构建 ShuffleDependency 时 一 一 进行 
Shuffle 注册 ， 获 取 后 续 数 据 读 写 所 需 的 ShuffleHandle。 

Stage 阶段 划分 后 ， 最 终 每 个 作业 〈Job) 提交 后 都 会 对 应 生成 一 个 ResultStage 与 若干 个 
ShuffleMapStage， 其 中 ResultStage 表示 生成 作业 的 最 终结 果 所 在 的 Stage。ResultStage 与 
ShuffleMapStage 中 的 Task 分 别 对 应 了 ResultTask 与 ShuffleMapTask。 一 个 作业 , 除了 最 终 的 
ResultStage, 其 他 若干 ShuffleMapStage 中 的 各 个 ShuffleMapTask 都 需要 将 最 终 的 数据 根据 相 
应 的 分 区 器 (Partitioner) 对 数据 进行 分 组 (即将 数据 重组 到 新 的 各 个 分 区 中 )， 然 后 持久 化 
分 组 后 的 数据 。 对 应 地 ， 每 个 RDD 本 身 记 录 了 它 的 数据 来 源 ， 在 计算 (compute) 时 会 读 取 
所 需 数据 ， 对 于 带 有 宽 依 赖 的 RDD， 读 取 时 会 获取 在 ShuffleMapTask 中 持久 化 的 数据 。 

从 图 7-2 中 可 以 看 到 , 外 部 宽 依 赖 相 关 的 RDD 与 ShuffleManager 之 间 的 注册 交互 , 通过 
该 注册 ， 每 个 RDD 自 带 的 宽 依赖 ShuffleDependency〉 内 部 会 维护 Shuffle 的 唯一 标识 信息 
ShuffleId 以 及 与 Shuffle 过 程 具体 读 写 相 关 的 句柄 ShuffleHandle， 后 续 在 ShuffleMapTask 中 
启动 任务 (Task) 的 运行 时 ， 可 以 通过 该 句柄 获取 相关 的 Shuffle 写 入 器 实例 ， 实 现 具体 的 数 
据 磁 盘 写 操作 。 

而 在 带 有 宽 依 赖 (ShuffleDependency) 的 RDD 中 ， 执 行 compute 时 会 去 读 取 上 一 Stage 
为 其 输出 的 Shuffle 数据 ， 此 时 同样 会 通过 该 句柄 获取 相关 的 Shuffle 读 取 器 实例 ， 实 现 具体 
数据 的 读 取 操 作 。 需 要 注意 的 是 ， 当 前 Shuffle 的 读 写 过 程 中 ， 与 BlockManager 的 交互 ， 是 
通过 MapOutputTracker 来 跟踪 Shuffle 过 程 中 各 个 任务 的 输出 数据 的 。 在 任务 完成 等 场景 中 ， 
会 将 对 应 的 MapStatus 信息 注册 到 MapOutputTracker 中 ， 而 在 compute 数据 读 取 过 程 中 ， 也 
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会 通过 该 跟踪 器 来 获取 上 一 Stage 的 输出 数据 在 BlockManager 中 的 位 置 , 然后 通过 getReader 
得 到 的 数据 读 取 器 ， 从 这 些 位 置 中 读 取 数 据 。 

目前 对 Shuffle 的 输出 进行 跟踪 的 MapOutputTracker 并 没有 和 Shuffle 数据 读 写 类 一 样 ， 
也 封装 到 Shuffle 的 框架 中 。 如 果 从 代码 聚合 与 解 耦 等 角度 出 发 ， 也 可 以 将 MapOutputTracker 
合并 到 整个 Shuffle 框架 中 ， 然 后 在 Shuffle 写 入 器 输出 数据 之 后 立即 进行 注册 ， 在 数据 读 取 
器 读 取 数 据 前 获取 位 置 等 〈 但 对 应 的 DAG 等 调度 部 分 ， 也 需要 进行 修改 )。 

ShuffleManager 封装 了 各 种 Shuffle 机 制 的 具体 实现 细节 ， 包 含 的 接口 与 属性 如 下 所 示 。 

(1) registerShuffle: 每 个 RDD 在 构建 它 的 父 依赖 〈 这 里 特 指 ShuffleDependency) 时 ， 
都 会 先 注册 到 ShuffleManager， 获 取 ShuffleHandler， 用 于 后 续 数据 块 的 读 写 等 。 

(2) getWriter: 可 以 通过 ShuffleHandler 获取 数据 块 写 入 器 ， 写 数据 时 通过 Shuffle 的 块 
解析 器 shuffleBlockResolver， 获 取 写 入 位 置 (通常 将 写 入 位 置 抽象 为 Bucket， 位 置 的 选择 则 
由 洗 牌 的 规则 ， 即 Shuffle 的 分 区 器 决定 )， 然 后 将 数据 写 入 到 相应 位 置 〈 理 论 上 ， 位 置 可 以 
位 于 任何 能 存储 数据 的 地 方 ， 包 括 磁盘 、 内 存 或 其 他 存储 框架 等 ， 目 前 在 可 插 拔 框架 的 几 种 
实现 中 ，Spark 与 Hadoop 一 样 都 采用 磁盘 的 方式 进行 存储 ， 主 要 目的 是 为 了 节约 内 存 ， 同 时 
是 高 容错 性 )。 

(3) getReader: 可 以 通过 ShuffleHandler 获取 数据 块 读 取 器 ， 然 后 通过 Shuffle 的 块 解析 
器 shuffleBlockResolver， 获 取 指 定数 据 块 。 

(4) unregisterShuffle: 与 注册 对 应 ， 用 于 删除 元 数据 等 后 续 清理 操作 。 

(5) shuffleBlockResolver: Shuffle 的 块 解析 器 ， 通 过 该 解析 器 ， 为 数据 块 的 读 写 提供 支 
撑 层 ， 便 于 抽象 具体 的 实现 细节 。 


7.2.3 Shuffle 框架 的 源码 解析 





用 户 可 以 通过 自 定义 ShufleManager 接口 ， 并 通过 指定 的 配置 属性 进行 设置 ， 也 可 以 通 
过 该 配置 属性 指定 Spark 已 经 支持 的 ShuffleManager 具体 实现 子 类 。 

在 SparkEnv 源码 中 可 以 看 到 设置 的 配置 属性 , 以 及 当前 在 Spark 的 Shuf 角 eManager 可 插 拔 杠 
架 中 已 经 提供 的 ShuffleManager 具体 实现 。Spark 2.0 版 本 中 支持 sort、tungsten-sort 两 种 方式 。 

Spark 2.1.1 版 本 的 SparkEnv.scala 的 源码 如 下 。 

1 // 用 户 可 以 通过 短 格式 的 命名 来 指定 所 使 用 的 ShuffleManager 

2. val shortShuffleMgrNames = Map( 

Ee "sort" -> classOf [org.apache.spark.shuffle.sort.SortShuffleManager] 


.getName, "tungsten-sort" -> classOf [org.apache.spark.shuffle. sort. 
SortShuffleManager] .getName) 


// 指 定 ShuffleManager 的 配置 属性 : "spark.shuffle.manager" 
// 默 认 情 况 下 使 用 "sort"， 即 SortShuffleManager 的 实现 
val shuffleMgrName = conf.get ("spark.shuffle.manager", "sort") 
val shuffleMgrClass = shortShuffleMgrNames .getOrElse (shuffleMgrName. 
toLowerCase, shuffleMgrName) 
) val shuffleManager = instantiateClass[ShuffleManager] (shuffleMgrClass) 


Spark 2.2.0 版 本 的 SparkEnv.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代 
码 中 第 8 行 调用 toLowerCase 小 写 转换 方法 ， 设 置 Locale.ROOT 区 域 表示 。root locale 是 一 个 
区 域 设置 ， 其 语言 、 地 区 、 变 量 都 设置 为 空 ("") 字 符 串 。 
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val shuffleMgrClass = 

< 大 ShortShuffleMgrNames .getOrElse (shuffleMgrName .toLowerCase 
(Locale.ROOT), shuffleMgrName) 

a 


从 代码 中 可 以 看 出 ，ShuffleManager 是 Spark Shuffle 系统 提供 的 一 个 可 插 拔 式 接口 ， 可 
以 通过 spark.shuffle.manager 配置 属性 来 设置 自 定义 的 ShufleManager。 

在 Driver 和 每 个 Executor 的 SparkEnv 实例 化 过 程 中 , 都 会 创建 一 个 ShuffleManager, 用 
于 管理 块 数据 ， 提 供 集群 块 数据 的 读 写 ， 包 括 数据 的 本 地 读 写 和 读 取 远 程 节点 的 块 数据 。 

Shuffle 系统 的 框架 可 以 以 ShuffleManager 为 入 口 进 行 解 析 。 在 ShufeManager 中 指定 了 
整个 Shuffle 框架 使 用 的 各 个 组 件 ， 包 括 如 何 注册 到 ShuffleManager， 以 获取 一 个 用 于 数据 读 
写 的 处 理 句柄 ShuffleHandle， 通 过 ShuffleHandle 获取 特定 的 数据 读 写 接口 : ShuffleWriter 与 
ShuffleReader， 以 及 如 何 获取 块 数据 信息 的 解析 接口 ShufleBlockResolver。 下 面 通过 源码 分 
别 对 这 几 个 比较 重要 的 组 件 进行 解析 。 

1. ShuffleManager 的 源码 解析 

由 于 ShuffleManager 是 Spark Shuffle 系统 提供 的 一 个 可 插 拔 式 接 口 ， 提 供 具 体 实 现 子 类 
或 自 定义 具体 实现 子 类 时 ， 都 需要 重 写 ShuffleManager 类 的 抽象 接口 。 下 面 首 先 分 析 
ShuffleManager 的 源码 。 

ShuffleManager.scala 的 源码 如 下 。 


a 

2. //Shuffle 系统 的 可 插 拔 接口 。 在 Driver 和 每 个 Executor 的 SparkEnv 实例 中 创建 

3. private[spark] trait ShuffleManager { 

4. 

5 /* 

6. * 在 Driver 端 向 ShuffleManager 注册 一 个 shuffle， 获 取 一 个 Handle 

了 汪 * 在 具体 Tasks 中 会 通过 该 Handle 来 读 写 数据 

8. #*/ 

9 def registerShuffle[K, V, C]( 

ds shuffleId: Int, 

3 numMaps: Int, 

2 dependency: ShuffleDependency[K, V, C]): ShuffleHandle 

3 

14. /水 
* 获 取 对 应 给 定 的 分 区 使 用 的 ShuffleWriter， 该 方法 在 Executors 上 执行 各 个 Map 
* 任 务 时 调用 

| S 


6. def getWriter[K, V] (handle: ShuffleHandle, maplId: Int, context: 
TaskContext): ShuffleWriter[K, V] 
I 
* 获取 在 Reduce 阶段 读 取 分 区 的 ShuffleReader， 对 应 读 取 的 分 区 由 [startPartition 
* to endPartition-1] 区 间 指 定 。 该 方法 在 Executors 上 执行 ， 在 各 个 Reduce 任务 时 调用 


3 


18 a 

9 def getReader[K, C]( 

20 

21 handle: ShuffleHandle, 
2 startPartition: Int, 
2 endPartition: Int, 


“Tl3s 
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24 context: TaskContext): ShuffleReader[K, C] 
225 
“4 /** 
2 * 该 接口 和 registerShuffle 分 别 负 责 元 数据 的 取消 注册 与 注册 
08. * 调 用 unregisterShuffle 接口 时 ， 会 移 除 ShuffleManager 中 对 应 的 元 数据 信息 
29. sh 
30. def unregisterShuffle (shuffleId: Int): Boolean 
SE 
B32 /rs 
* 返 回 一 个 可 以 基于 块 坐标 来 获取 Shuffle 块 数 据 的 ShuffleBlockResolver 
33= ph 
34. def shuffleBlockResolver: ShuffleBlockResolver 
352 


36.  /** 终 止 ShuffleManager */ 
37. def stop(): Unit 
S08. } 


2. ShuffleHandle 的 源码 解析 

1. abstract class ShuffleHandle(val shuffleId: Int) extends Serializable {} 

ShuffleHandle 比较 简单 ， 用 于 记录 Task 与 Shuffle 相关 的 一 些 元 数据 ， 同 时 也 可 以 作为 
不 同 具体 Shuffle 实现 机 制 的 一 种 标志 信息 ， 控 制 不 同 具体 实现 子 类 的 选择 等 。 

3. ShuffleWriter 的 源码 解析 


ShuffleWriterscala 的 源码 如 下 。 


private[spark] abstract class ShuffleWriter[K, V] { 

/** Write a sequence of records to this task's output */ 
Qthrows [IOException] 

def write (records: Iterator [Product2[K，V]]) : Unit 


/** Close this writer, passing along whether the map completed */ 
def stop (success: Boolean): Option [MapStatus] 
} 


继承 ShuffleWriter 的 每 个 具体 子 类 会 实现 write 接口 ， 给 出 任务 在 输出 时 的 写 记 录 的 具 
体 方法 。 
4. ShuffleReader 的 源码 解析 


1 
2 
3 
4. 
5 
6 
了 
8 


ShuffleReader scala 的 源码 如 下 。 

4 private[spark] trait ShuffleReader[K, C] { 

和 /** Read the combined key-values for this reduce task */ 
ER def read(): Iterator[Product2[K, C]] 


继承 ShuffleReader 的 每 个 具体 子 类 会 实现 read 接口 , 计算 时 负责 从 上 一 阶段 Stage 的 输 
出 数据 中 读 取 记 录 。 


5. ShuffleBlockResolver 的 源码 解析 


ShuffleBlockResolver 的 源码 如 下 。 
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工 。 /** 
* 该 特质 的 具体 实现 子 类 知道 如 何 通 过 一 个 逻辑 Shuffle 块 标识 信息 来 获取 一 个 块 数据 。 具体 
* 实 现 可 以 使 用 文件 或 文件 段 来 封装 Shuffle 的 数据 。 这 是 获取 Shuffle 块 数据 时 使 用 的 抽 
* 象 接口 ， 在 BlockStore 中 使 用 


2 a 
< 全 
4. 
5. trait ShuffleBlockResolver { 
5 type ShuffleId = Int 
也 
8 . 人 
* 获 取 指定 块 的 数据 。 如 果 指 定 块 的 数据 无 法 获取 ， 则 抛 出 异常 
让 sf/ 
10. def getBlockData (blockId: ShuffleBlockId) : ManagedBuffer 
11。 
12. def stop(): Unit 
132° |} 


继承 ShuffleBlockResolver 的 每 个 具体 子 类 会 实现 getBlockData 接口 , 给 出 具体 的 获取 块 
数据 的 方法 。 

目前 在 ShuffleBlockResolver 的 各 个 具体 子 类 中 ， 除 给 出 获取 数据 的 接口 外 , 通常 会 提供 
如 何 解 析 块 数据 信息 的 接口 ， 即 提供 了 写 数据 块 时 的 物理 块 与 逻辑 块 之 间 映 射 关 系 的 解析 方法 。 


7.2.4 ”Shuffle 数据 读 写 的 源码 解析 


1. Shuffle 写 数据 的 源码 解析 


从 Spark Shuffle 的 整体 框架 中 可 以 看 到 ，ShuffleManager 提供 了 Shuffle 相关 数据 块 的 写 
入 与 读 取 ， 即 对 应 的 接口 getWriter 与 getReader。 

在 解析 Shuffle 框架 数据 读 取 过 程 中 ， 可 以 构建 一 个 具有 ShuffleDependency 的 RDD, 查 
看 执行 过 程 中 ，Shuffle 框架 中 的 数据 读 写 接口 getWriter 与 getReader 如 何 使 用 ， 通 过 这 种 具 
体 案例 的 方式 来 加 深 对 源码 的 理解 。 

Spark 中 Shuffle 具体 的 执行 机 制 可 以 参考 本 书 的 其 他 章节 , 在 此 仅 分 析 与 Shuffle 直接 相 
关 的 内 容 。 通 过 DAG 调度 机 制 的 解析 ， 可 以 知道 Spark 中 一 个 作业 可 以 根据 宽 依 赖 切 分 
Stages， 而 在 Stages 中 ， 相 应 的 Tasks 也 包含 两 种 ， 即 ResultTask 与 ShuffleMapTask。 其 中 ， 
一 个 ShuffleMapTask 会 基于 ShuffleDependency 中 指定 的 分 区 器 , 将 一 个 RDD 的 元 素 拆 分 到 
多 个 buckets 中 ， 此 时 通过 ShuffleManager 的 getWriter 接口 获取 数据 与 buckets 的 映射 关系 。 
而 ResultTask 对 应 的 是 一 个 将 输出 返回 给 应 用 程序 Driver 端的 Task， 在 该 Task 执行 过 程 中 ， 
最 终 都 会 调用 RDD 的 compute 对 内 部 数据 进行 计算 ， 而 在 带 有 ShuffeDependency 的 RDD 
中 ,在 compute 计算 时 , 会 通过 ShuffleManager 的 getReader 接口 ,获取 上 一 个 Stage 的 Shuffle 
输出 结果 作为 本 次 Task 的 输入 数据 。 

首先 来 看 ShuffleMapTask 中 的 写 数据 流程 ， 具 体 代码 如 下 所 示 。 

ShuffleMapTask.scala 的 源码 如 下 。 











1. override def runTask (context: TaskContext): MapStatus = { 


Se 
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// 首 先 从 SparkEnv 获取 ShuffleManager 
// 然 后 从 ShuffleDependency 中 获取 注册 到 ShuffleManager 时 得 到 的 shuffleHandle 
// 根 据 shuffleHandle 和 当前 Task 对 应 的 分 区 ID， 获 取 ShuffleWriter 
// 最 后 根据 获取 的 ShuffleWwriter， 调 用 其 write 接口 ， 写 入 当前 分 区 的 数据 
Var writer: ShuffleWriter[Rny，RAny] = null 
try { 
Val manager = SparkEnv.get.shuffleManager 
writer =manager .getWriter[Any, Any] (dep.shuffleHandle, partitionId, 
context) 
writer.write (rdd.iterator (partition, context) .asInstanceOf 
[Iterator[ <: Product2[Any, Any]]]) 
writer.stop(success = true) .get 
catch 't 


2. Shuffle 读 数据 的 源码 解析 


对 应 的 数据 读 取 器 , 从 RDD 的 5 个 抽象 接口 可 知 , RDD 的 数据 流 最 终 会 经 过 算 子 操作 ， 
即 RDD 中 的 compute 方法 。 下 面 以 包含 宽 依 赖 的 RDD、CoGroupedRDD 为 例 ， 查 看 如 何 获 
取 Shuffle 的 数据 。 具 体 代 码 如 下 所 示 。 

Spark 1.6.0 版 本 的 CoGroupedRDD.scala 的 源码 如 下 。 


// 对 指定 分 区 进行 计算 的 抽象 接口 ， 以 下 为 CoGroupedRDD 具体 子 类 中 该 方法 的 实现 
override def compute(s: Partition, context: TaskContext): Iterator[(K, 
RARrray[Iterable[ ]])] = { 

val split = s.asInstanceOf [CoGroupPartition] 

val numRdds = dependencies.length 


//A list of (rdditerator, dependency number) pairs 
val rddIterators = new ArrayBuffer[ (Iterator[Product2[K, Any]], Int)] 
for ((dep, depNum) <- dependencies.zipWithIndex) dep match { 
case oneToOneDependency: OneToOneDependency[Product2[K, Any]] 
@unchecked => 
val dependencyPartition = split.narrowDeps (depNum) .get.split 
//Read them from the parent 
val it = oneToOneDependency.rdd.iterator (dependencyPartition, 
context) 


. rddIterators += ((it, depNum)) 


case shuffleDependency: ShuffleDependency[ , , _] => 


. // 首 先 从 SparkEnv 获取 ShuffleManager 

. // 然 后 从 ShuffleDependency 中 获取 注册 到 shuffleManager 时 得 到 的 shuffleHandle 
. // 根 据 shuffleHandle 和 当前 Task 对 应 的 分 区 ID， 获 取 ShuffleWriter 

. // 最 后 根据 获取 的 ShuffleReader， 调 用 其 read 接口 ， 读 取 Shuffle 的 Map 输出 


. val it = SparkEnv.get.shuffleManager 


.getReader (shuffleDependency.shuffleHandle, split.index, 
split.index + 1, context) 
.read() 


. rddIterators += ((it, depNum)) 


} 


val map = createExternalMap (numRdds) 
for ((it, depNum) <- rddIterators) { 
map.insertAll(it.map(pair => (pair. 1, new CoGroupValue (pair. 2, 
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depNum) ) ) ) 
30-> } 
3 context .taskMetrics () .incMemoryBytesSpilled (map.memoryBytesSpilled) 
32- context -taskMetrics () .incDiskBytesSpilled (map.diskBytesSpilled) 
长 记 context . internalMetricsToRAccumulators ( 
34. InternalAccumulator.PEAK EXECUTION MEMORY) .add 
(map-peakMemoryUsedBytes) 
三 上 全 new InterruptibleIterator (context, 
365 map.iterator.asInstanceOf[Iterator[ (K, Array[Iterable[ ]])]]) 
S70 


Spark 2.2.0 版 本 的 CoGroupedRDD.scala 的 源码 与 Spark 1.6.0 版 本 相 比 具有 如 下 特点 : 上 段 
代码 中 第 28 一 29 行 的 contextintermalMetricsToAccumulators 方法 调整 为 context.taskMetrics 方 
法 ， 用 于 任务 的 度量 监控 ， 监 控 内 存 的 峰值 使 用 情况 。 


2. context.taskMetrics () .incPeakExecutionMemory (map.peakMemoryUsedBytes) 

S 

从 代码 中 可 以 看 到 ， 带 宽 依赖 的 RDD 的 compute 操作 中 ， 最 终 是 通过 SparkEnv 中 的 
ShuffleManager 实例 的 getReader 方法 ， 获 取 数 据 读 取 器 的 ， 然 后 再 次 调用 读 取 器 的 read 读 
取 指 定 分 区 范围 的 Shuffle 数据 。 注 意 ,是 带宽 依赖 的 RDD, 而 非 ShuffleRDD, 除 了 ShuffleRDD 
外 ， 还 有 其 他 RDD 也 可 以 带 上 宽 依 赖 的 ， 如 前 面 给 出 的 CoGroupedRDD。 

目前 支持 的 几 种 具体 Shuffle 实现 机 制 在 读 取 数 据 的 处 理 上 都 是 一 样 的 。 从 源码 角度 可 以 看 
到 ， 当 前 继承 了 ShufleReader 这 一 数据 读 取 器 的 接口 的 具体 子 类 只 有 BlockStoreShuffleReader， 
因此 , 本章 内 容 仅 在 此 对 各 种 Shuffle 实现 机 制 的 数据 读 取 进 行 解析 ,后 续 各 实现 机 制 中 不 再 












源码 解析 的 第 一 步 仍 然 是 查看 该 类 的 描述 信息 ， 具 体 如 下 所 示 。 

1. /** 

2. * 通 过 从 其 他 节点 上 请 求 读 取 Shuffle 数据 来 接收 并 读 取 指 定 范围 [起 始 分 区 ， 结 束 分 区 ) 
* 一 一 对 应 为 左 闭 右 开 区 间 

3. ”* 通 过 从 其 他 节点 上 请 求 读 取 Shuffle 数据 来 接收 并 读 取 指定 范围 [起 始 分 区 ， 结 束 分 区 ] 

4. * 一 一 对 应 为 左 闭 右 开 区 间 

Si 


从 注释 上 可 以 看 出 ， 读 取 器 负责 上 一 Stage 为 下 一 Stage 输出 数据 块 的 读 取 。 从 前 面 对 
ShuffleReader 接口 的 解析 可 知 ， 继 承 的 具体 子 类 需要 实现 真正 的 数据 读 取 操 作 ， 即 实现 read 
方法 。 因 此 ， 该 方法 便 是 需要 重点 关注 的 源码 。 一 些 关 键 的 代码 如 下 所 示 。 

Spark 2.1.1 版 本 的 BlockStoreShuffleReader scala 的 源码 如 下 。 





1.  // 为 该 Reduce 任务 读 取 并 合并 key-values 值 

2. override def read() : Iterator [Product2[K，C]] = { 

3.  // 真 正 的 数据 Iterator 读 取 是 通过 ShuffleBlockFetcherIterator 来 完成 的 

val blockFetcherItr = new ShuffleBlockFetcherIterator( 

5 context, 

Be blockManager.shuffleClient, 

Ts blockManager, 

从 // 可 以 看 到 ， 当 ShuffleMapTask 完成 后 注册 到 mapoutputTracker 的 元 数据 信息 
// 同 样 会 通过 mapoutputTracker 来 获取 ， 在 此 同时 还 指定 了 获取 的 分 区 范围 
// 通 过 该 方法 的 返回 值 类 型 

上 区 


-Ts 
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mapOutputTracker.getMapSizesByExecutorId (handle.shufflelId, 
startPartition, endPartition), 

// 默 认 读 取 时 的 数据 大 小 限制 为 48m， 对 应 后 续 并 行 的 读 取 ， 都 是 一 种 数据 读 取 的 控制 策 
// 略 ， 一 方面 可 以 避免 目标 机 器 占用 过 多 带宽 ， 同 时 也 可 以 启动 并 行 机制 ， 加 快 读 取 速 度 


SparkEnv.get.conf.getSizeAsMb ("spark.reducer.maxSizeInE1ight'"， 
"48m") * 1024 * 1024, 
SparkEnv.get.conf.getInt("spark.reducer.maxReqsInEF1ight"， 
Int.MaxValue) ) 


// 在 此 针对 前 面 获取 的 各 个 数据 块 唯一 标识 ID 信息 及 其 对 应 的 输入 流 进行 处 理 
Val wrappedStreams = blockFetcherItr.map { case (blockId，inputStream) => 
serializerManager .wrapStream(blockId, inputStream) 


】} 


val serializerInstance = dep.serializer.newInstance () 


// 为 每 个 流 stream 创建 一 个 键 / 值 迭 代 器 

Val recordIter = wrappedStreams.flatMap { wrappedStream => 
// 注 意 : askey Value Iterator 在 内 部 迭代 器 Next Iterator 中 包 庄 一 个 键 / 值 对 ， 
// 当 Input Stream 中 的 数据 已 读 取 ，Next Iterator 确保 Close () 方 法 被 调用 


serializerInstance.deserializeStream (wrappedStream) .asKeyValueIterator 


} 
// 为 每 个 记录 更 新 上 下 文 任务 度量 


val readMetrics = context .taskMetrics.createTempShuffleReadMetrics() 
val metricIter = CompletionIterator[ (Any, Any), Iterator[ (Any, Any)]]( 
recordIter.map { record => 
readMetrics.incRecordsRead(1) 
record 
}, 
context.taskMetrics() .mergeShuffleReadMetrics ()) 


// 为 了 支持 任务 取消 ， 这 里 必须 使 用 可 中 断 迭 代 器 
val interruptibleIter = new InterruptibleIterator [ (Any, Any)] (context, 
metricIter) 
// 对 读 取 到 的 数据 进行 聚合 处 理 
val aggregatedIter: Iterator [Product2[K，C]] = if (dep.aggregator 
.isDefined) { 


// 如 果 在 Map 端 已 经 做 了 聚合 的 优化 操作 ， 则 对 读 取 到 的 聚合 结果 进行 聚合 ， 注 意 此 时 的 
/ /聚合 操作 与 数据 类 型 和 Map 端 未 做 优化 时 是 不 同 的 


if (dep.mapSideCombine) { 
// 对 读 取 到 的 数据 进行 聚合 处 理 
val combinedKeyValuesIterator = interruptiblelIter.asInstanceOf 
[Iterator[ (K, C)]] 


//Map 端 各 分 区 针对 Key 进行 合并 后 的 结果 再 次 聚合 ，Map 的 合并 可 以 大 大 减少 网 络 传输 
// 的 数据 量 
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dep -aggregator .get.-combineCombinersBYKey 
(combinedKeyValuesIterator, context) 

} else { 
/ /我 们 无 需 关 心 值 的 类 型 ,但 应 确保 聚合 是 兼容 的 ， 其 将 把 值 的 类 型 转化 成 聚合 以 后 的 
//C 类 型 


val keyValuesIterator = interruptibleIter.asInstanceOf[Iterator 
[(K, Nothing)]] 
dep.aggregator.get .combineValuesByKey (keyValuesIterator, context) 


else { 

require(!dep.mapSideCombine, "Map-side combine without Aggregator 
specified!") 

interruptibleIter.asInstanceOf[Iterator[Product2[K, C]]] 


} 


// 在 基于 Sort 的 Shuffle 实现 过 程 中 , 默认 基于 PartitionId 进行 排序 , 在 分 区 的 内 
// 部 ， 数 据 是 没有 排序 的 ， 因 此 添加 了 keyordering 变量 ， 提 供 是 否 需要 针对 分 区 内 的 
// 数 据 进行 排序 的 标识 信息 


// 如 果 定 义 了 排序 ， 则 对 输出 结果 进行 排序 
dep.keyOrdering match { 


case Some(keyOrd: Ordering[K]) => 


// 为 了 减少 内 存 的 压力 ,避免 GC 开销 ， 引 入 了 外 部 排序 器 对 数据 进行 排序 当 内 存 不 足 
// 以 容纳 排序 的 数据 量 时 , 会 根据 配置 的 spark .shuffle .spill 属性 来 决定 是 否 需要 
//spill 到 磁盘 中 ， 默认 情况 下 会 打开 spi1l 开关 ， 若 不 打开 spill 开关 ,数据 量 比 


// 较 大 时 会 引发 内 存 溢出 问题 (Out of Memory，OOM) 


val sorter = 


new ExternalSorter[K, C, C] (context, ordering = Some (keyOrd) ， 
serializer = dep.serializer) 


sorter.insertAll (aggregatedIter) 

context .taskMetrics () .incMemoryBytesSpilled (sorter. 
memoryBytesSpilled) 

context .taskMetrics () .incDiskBytesSpilled (sorter. 
diskBytesSpilled) 

context .taskMetrics () .incPeakExecutionMemory 
(sorter.peakMemoryUsedBytes) 

CompletionIterator[Product2[K, C], Iterator[Product2[K, C]]] 
(sorter.iterator, sorter.stop()) 


Cas 


e None => 


// 不 需要 排序 分 区 内 部 数据 时 直接 返回 
aggregatedIter 


1 


0 


Spark 2.2.0 版 本 的 BlockStoreShuffleReader.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 


特点 。 


口 
口 
口 


上 段 代 码 品 
上 段 代码 





P 第 4 行 blockFetcherItr 名 称 更 改 为 wrappedStreams。 
P 第 17 行 之 前 新 增 代码 serializerManager.wrapStream。 


上 段 代 码 中 第 18 行 之 后 新 增 配 置 参数 REDUCER MAX REQ_SIZE SHUFFLE _ 
TO_MEM: 


shuffle 时 可 请 求 内 存 的 最 大 大 小 (以 字 节 为 单位 〉。 





上 段 代 码 品 


P 第 18 行 之 后 新 增 配 置 参数 spark.shuffle.detectCorrupt: 检测 获取 块 blocks 


“279% 
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中 是 否 有 任何 损坏 。 


9. 
下 面 


上 段 代码 中 第 21 一 23 行 删除 。 
上段 代码 中 第 28 行 wrappedStream 调整 为 case (blockId, wrappedStream)。 





SparkEnv.get-conf.get (config.REDUCER MAX REQ SIZE SHUFFLE TO MEM), 
SparkEnv .get .conf .getBoolean ("spark.shuffle.detectCorrupt", true)) 
= 


进一步 解析 数据 读 取 的 部 分 细节 。 首 先是 数据 块 获取 、 读 取 的 ShuffleBlock- 


Fetcherlterator 类 ， 在 类 的 构造 体 中 调用 了 initialize 方法 (构造 体 中 的 表达 式 会 在 构造 实例 时 
执行 )， 该 方法 中 会 根据 数据 块 所 在 位 置 ( 本 地 节点 或 远程 节点 ) 分 别 进行 读 取 ， 其 中 关键 代 
码 如 下 所 示 。 

ShuffleBlockFetcherIterator 的 源码 如 下 。 


心 wN 哺 


Private[this] def initialize(): Unit = { 

// 任 务 完 成 进行 回调 清理 〈 在 成 功 案例 和 失败 案例 中 调用 ) 

context .addTaskCompletionListener( => cleanup()) 

// 本 地 与 远程 的 数据 读 取 方 式 不 同 ， 因 此 先进 行 拆 分 ， 注 意 拆 分 时 会 考虑 一 次 获取 的 数据 
// 大 小 ( 拆 分 时 会 同时 考虑 并 行 数 ) 封装 请 求 ， 最 后 会 将 剩余 不 足 该 大 小 的 数据 获取 也 封装 
// 为 一 个 请 求 


val remoteRequests = splitLocalRemoteBlocks() 


// 存 入 需要 远程 读 取 的 数据 块 请 求 信息 

fetchRequests ++= Utils.randomize (emoteRequests) 

assert ((0 == reqsInFlight) == (0 == bytesInFlight), 
"expected reqsInFlight = 0 but found reqsInFlight = " + reqsInFlight + 
", expected bytesInFlight = 0 but found bytesInFlight = "+ 
bytesInFlight) 

// 发 送 数 据 获取 请 求 

fetchUpToMaxBytes () 


val numFetches = remoteRequests.size - fetchRequests.size 
logInfo("Started " + numFetches + " remote fetches in" + 
Utils.getUsedTimeMs (startTime)) 


// 除 了 远程 数据 获取 外 ， 下 面 是 获取 本 地 数据 块 的 方法 调用 
fetchLocalBlocks () 
logDebug ("Got local blocks in " + Utils.getUsedTimeMs (startTime) ) 


与 Hadoop 一 样 ，Spark 计算 框架 也 基于 数据 本 地 性 ， 即 移动 数据 而 非 移动 计算 的 原则 ， 


因此 在 获 
读 取 。 
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取 数 据 块 时 ， 也 会 考虑 数据 本 地 性 ， 尽 量 从 本 地 读 取 已 有 的 数据 块 ， 然 后 再 远程 
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另外 ， 数 据 块 的 本 地 性 是 通过 ShuffleBlockFetcherIterator 实例 构建 时 所 传 入 的 位 置信 息 
来 判断 的 , 而 该 信息 由 MapOutputTracker 实例 的 getMapSizesByExecutorld 方法 提供 , 可 以 参 
考 该 方法 的 返回 值 类 型 查看 相关 的 位 置信 息 ， 返 回 值 类 型 为 : Seq[(BlockManagerId， 
Seq[(BlockId, Long)])]。 其 中 ，BlockManagerId 是 BlockManager 的 唯一 标识 信息 ，BlockId 是 
数据 块 的 唯一 信息 , 对 应 的 Seq[(BlockId, Long)] 表 示 一 组 数据 块 标识 ID 及 其 数据 块 大 小 的 元 
组 信息 。 

最 后 简单 分 析 一 下 如 何 设 置 分 区 内 部 的 排序 标识 ， 当 需要 对 分 区 内 的 数据 进行 排序 时 ， 
会 设置 RDD 中 的 宽 依 赖 〈ShuffleDependency) 实例 的 keyOrdering 变量 。 下 面 以 基于 排序 的 
OrderedRDDFunctions 提供 的 sortByKey 方法 给 出 解析 ， 具 体 代码 如 下 所 示 。 

OrderedRDDFunctions 的 源码 如 下 。 




















2 def sortByKey(ascending: Boolean = true, numPartitions: Int = 
self.partitions.1length) 
: RDD[(K, V)] = self.withScope 

{ 
/5 // 注 意 ， 这 里 设置 了 该 方法 构建 的 RDD 使 用 的 分 区 器 

// 根 据 Range 而 非 Hash 进行 分 区 ， 对 应 的 Range 信息 需要 计算 并 将 结果 

// 反 馈 到 Driver 端 ， 因 此 对 应 调用 RDD 中 的 Action， 即 会 触发 一 个 Job 的 执行 
Val part = new RangePartitioner (numPartitions，self，ascending) 

// 在 构建 RDD 实例 后 ， 设 置 Key 的 排序 算法 ， 即 ordering 实例 

new ShuffledRDD[K, V, V] (self, part) 

.SetKeyOrdering(if (ascending) ordering else ordering.reverse) 
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} 


当 需 要 对 分 区 内 部 的 数据 进行 排序 时 , 构建 RDD 的 同时 会 设置 Key 值 的 排序 算法 , 结合 前 
面 的 read 代码 ， 当 指定 Key 值 的 排序 算法 时 ， 就 会 使 用 外 部 排序 器 对 分 区 内 的 数据 进行 排序 。 


7.3 Hash Based Shuffle 


本 节 讲解 Hash Based Shuffle， 包 括 Hash Based Shuffle 概述 、Hash Based Shuffle 内 核 、 
Hash Based Shuffle 的 数据 读 写 的 源码 解析 等 内 容 。 


7.3.1 概述 


在 Spark 1.1 之 前 ,Spark 中 只 实现 了 一 种 Shuffle 方式 , 即 基于 Hash 的 Shuffle。 在 Spark 
1.1 版 本 中 引入 了 基于 Sort 的 Shuffle 实现 方式 , 并 且 在 Spark 1.2 版 本 之 后 , 默认 的 实现 方式 
从 基于 Hash 的 Shuffle, 修改 为 基于 Sort 的 Shuffle 实现 方式 ， 即 使 用 的 ShuffleManager 从 默 
认 的 hash 修改 为 sort。 说 明 在 Spark 2.0 版 本 中 ，Hash 的 Shuffle 方式 已 经 不 再 使 用 。 

Spark 之 所 以 一 开始 就 提供 基于 Hash 的 Shuffle 实现 机 制 ， 其 主要 目的 之 一 就 是 为 了 避 
免 不 需 要 的 排序 (这 也 是 Hadoop Map Reduce 被 人 诉 病 的 地 方 ， 将 Sort 作为 固定 步骤 ， 导 致 
许多 不 必要 的 开销 )。 但 基于 Hash 的 Shuffle 实现 机 制 在 处 理 超 大 规模 数据 集 的 时 候 ,， 由 于 过 
程 中 会 产生 大 量 的 文件 ， 导 臻 过 度 的 磁盘 VO 开销 和 内 存 开销 ， 会 极 大 地 影响 性 能 。 

但 在 一 些 特定 的 应 用 场景 下 ， 采 用 基于 Hash 的 实现 Shuffle 机 制 的 性 能 会 超过 基于 Sort 
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的 Shuffle 实现 机 制 。 关 于 基于 Hash 与 基于 Sort 的 Shuffle 实现 机 制 的 性 能 测试 方面 ， 可 以 
参考 Spark 创始 人 之 一 的 ReynoldXin 给 的 测试 :“sort-basedshuffle has lower memory usage and 
seems to outperformhash-based in almost allof our testing ”。 

相关 数据 可 以 参考 https://issues.apache.org/jira/browse/SPARK-3280。 
为 此 ， 在 Spark 1.2 版 本 中 修改 为 默认 基于 Sort 的 Shuffle 实现 机 制 时 ， 同 时 也 给 出 了 特 
定 应 用 场景 下 回 退 的 机 制 。 














7.3.2 ”Hash Based Shuffle 内 核 


1. 基于 Hash 的 Shuffle 实 现 机 制 的 内 核 框架 


基于 Hash 的 Shuffle 实现 ，ShuffleManager 的 具体 实现 子 类 为 HashShuffleManager， 对 
应 的 具体 实现 机 制 如 图 7-3 所 示 。 





HashShuffleManager 








一个 registerShuffle[K, V, C] 
getWriter[K, V] 
getReader[K，C] 
UnregisterShuffle 
shuffleBlockResolver 
stop() 




















= BaseShuffleHandle 











BlockStoreShuffleReader 




















HashShuffleWriter 





FileShuffleBlockResolver 


























图 7-3 基于 哈 希 算法 的 Shuffle 实现 机 制 的 内 核 框架 


其 中 , HashShuffleManager 是 ShuffleManager 的 基于 哈 希 算法 实现 方式 的 具体 实现 子 类 。 
数据 块 的 读 写 分 别 由 BlockStoreShuffleReader 与 HashShuffleWriter 实现 ; 数据 块 的 文件 解析 
器 则 由 具体 子 类 FileShuffleBlockResolver 实现 ; BaseShuffleHandle 是 ShuffleHandle 接口 的 基 
本 实现 ， 保 存 Shuffle 注册 的 信息 。 

HashShuffleManager 继承 自 ShuffleManager， 对 应 实现 了 各 个 抽象 接口 。 基 于 Hash 的 
Shuffle， 内 部 使 用 的 各 组 件 的 具体 子 类 如 下 所 示 。 

(1) BaseShuffleHandle: 携带 了 Shuffle 最 基本 的 元 数据 信息 ， 包 括 shuffleId、numMaps 
和 dependency。 

(2) BlockStoreShuffleReader: 负责 写 入 的 Shuffle 数据 块 的 读 操作 。 

(3 )FileShuffleBlockResolver: 负责 管理 , 为 Shuffle 任务 分 配 基于 磁盘 的 块 数据 的 Writer。 
每 个 ShuffleShuffle 任务 为 每 个 Reduce 分 配 一 个 文件 。 

(4) HashShuffleWriter: 负责 Shuffle 数据 块 的 写 操作 。 
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在 此 与 解析 整个 Shuffle 过 程 一 样 ， 以 HashShuffleManager 类 作为 入 口 进 行 解析 。 

首先 看 一 下 HashShuffleManager 具体 子 类 的 注释 ， 如 下 所 示 。 

Spark 1.6.0 版 本 的 HashShuffleManagerscala 的 源码 (Spark 2.2 版 本 已 无 HashShuffleManager 
方式 ) 如 下 。 


1. /** 
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* 使 用 Hash 的 SshuffleManager 具体 实现 子 类 ， 针 对 每 个 Mapper 都 会 为 各 个 Reduce 分 
* 区 构建 一 个 输出 文件 (也 可 能 是 多 个 任务 复 用 文件 ) 


3. private[spark] class HashShuffleManager(conf: SparkConf) extends 
ShuffleManager with Logging { 


2. 基于 Hash 的 Shuffle 实 现 方式 一 

为 了 避免 Hadoop 中 基于 Sort 方式 的 Shuffle 所 带 来 的 不 必要 的 排序 开销 ，Spark 在 开始 
时 采用 了 基于 Hash 的 Shuffle 方式 。 但 这 种 方式 存在 不 少 缺陷 ， 这 些 缺 陷 大 部 分 是 由 于 在 基 
于 Hash 的 Shuffle 实现 过 程 中 创建 了 太 多 的 文件 所 造成 的 。 在 这 种 方式 下 ， 每 个 Mapper 端 


的 Task 运 


































行 时 都 会 为 每 个 Reduce 端的 Task 生成 一 个 文件 ， 具 体 如 图 7-4 所 示 。 
本 地 文件 系统 
ES 
We 下， shufe shufneld 1 1 
shufne_shufneld_1 2 Reducer 端 的 
- = 分 区 个 数 
Map-Task-! shufile shumeld 1 R 
Map- Tek Casa] 
shufme shufmeld 2 2 Reducer 端 的 
分 区 个 数 
shuffle_shuffleld M 2 Reducer 端 的 
分 区 个 数 





图 7-4 基于 Hash 的 Shuffle 实现 方式 一 一 文件 的 输出 细节 图 


Executor-Mapper 表示 执行 Mapper 端的 Tasks 的 工作 点 ， 可 以 分 布 到 集群 中 的 多 台 机 器 
节点 上 ， 并 且 可 以 以 不 同 的 形式 出 现 ， 如 以 Spark Standalone 部 署 模式 中 的 Executor 出 现 ， 


也 可 以 以 


Spark On Yam 部 署 模式 中 的 容器 形式 出 现 ， 关 键 是 它 代表 了 实际 执行 Mapper 端的 


Tasks 的 工作 点 的 抽象 概念 。 其 中 , M 表示 Mapper 端的 Task 的 个 数 , R 表示 Reduce 端的 Task 


的 个 数 。 


对 应 在 右 侧 的 本 地 文件 系统 是 在 该 工作 点 上 所 生成 的 文件 ， 其 中 R 表示 Reduce 端的 分 


区 个 数 。4 





E 成 的 文件 名 格式 为 : shuffle shuffleId mapId reduceId, 其 中 的 shuffle shuffleId 1 1 


“283< 


上 篇 ”内 核 解密 








表示 mapId 为 1， 同 时 reduceld 也 为 1。 

在 Mapper 端 ， 每 个 分 区 对 应 启动 一 个 Task， 而 每 个 Task 会 为 每 个 Reducer 端的 Task 生 
成 一 个 文件 ， 因 此 最 终生 成 的 文件 个 数 为 MXR。 
于 这 种 实现 方式 下 ,对 应 生成 文件 个 数 仅 与 Mapper 端 和 Reducer 端 各 自 的 分 区 数 有 关 ， 
因此 图 中 将 Mapper 端的 全 部 M 个 Task 抽象 到 一 个 Executor-Mapper 中 ， 实 际 场 景 中 通常 是 
分 布 到 集群 中 的 各 个 工作 点 中 。 

生成 的 各 个 文件 位 于 本 地 文件 系统 的 指定 目录 中 ， 该 目录 地 址 由 配置 属性 spark.local.dir 
设置 。 说 明 : 分 区 数 与 Task 数 ， 一 个 是 静态 的 数据 分 块 个 数 ， 一 个 是 数据 分 块 对 应 执行 的 动 
态 任务 个 数 ， 因 此 ， 在 特定 的 、 描 述 个 数 的 场景 下 ， 两 者 是 一 样 的 。 


3. 基于 Hash 的 Shuffle 实 现 方式 二 


为 了 减少 Hash 所 生成 的 文件 个 数 ， 对 基于 Hash 的 Shuffle 实现 方式 进行 了 优化 ， 引 入 
文件 合并 的 机 制 ， 该 机 制 设 置 的 开关 为 配置 属性 spark.shuffle.consolidateFiles。 在 引入 文件 合 
并 的 机 制 后 ， 当 设置 配置 属性 为 tue， 即 启动 文件 合并 时 ， 在 Mapper 端的 输出 文件 会 进行 合 
并 ， 在 一 定 程度 上 可 以 大 量 减少 文件 的 生成 ， 降 低 不 必要 的 开销 。 文 件 合并 的 实现 方式 可 以 
参考 图 7-5。 




















本 地 文件 系统 





Executor-Mapper 


Reducer 端 的 
分 区 个 数 


Map-Task-1 
Map-Task-2 


Map-Task-C/T 
Map-Task-(C/IT+1) 『 | Ro | mr 
Map-Task-(C/T+2) 


Reducer 端 的 
分 区 个 数 


Reducer 端 的 
分 区 个 数 


merged_shufflle_shuffleld R_C/T 


图 7-5 基于 Hash 的 Shuffle 的 合并 文件 机 制 的 输出 细节 图 


Executor-Mapper 表示 集群 中 分 配 的 某 个 工作 点 ， 其 中 ，C 表示 在 该 工作 点 上 所 分 配 到 的 
内 核 〈Core) 个 数 ，T 表示 在 该 工作 点 上 为 每 个 Task 分 配 的 内 核 个 数 。C/T 表示 在 该 工作 点 
上 调度 时 最 大 的 Task 并 行 个 数 。 

右 侧 的 本 地 文件 系统 是 在 该 工作 点 上 所 生成 的 文件 ,其 中 R 表示 Reduce 端的 分 区 个 数 。 
生成 的 文件 名 格式 为 : merged_shuffle shuffleId bucketId fileIld， 其 中 的 merged_shuffle 
shuffleId 1 1 表示 bucketId 为 1， 同时 fileId 也 为 1 。 
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在 Mapper 端 ，Task 会 复 用 文件 组 ， 由 于 最 大 并 行 个 数 为 CT， 因 此 文件 组 最 多 分 配 C/T 
个 ， 当 某 个 Task 运行 结束 后 ， 会 释放 该 文件 组 ， 之 后 调度 的 Task 则 复 用 前 一 个 Task 所 释放 


的 文件 组 ， 因 此 会 复 用 同一 个 文件 。 最 终 在 该 工作 点 上 生成 的 文件 总 数 为 CCT*R， 如 果 设 工 


























作 点 个 数 为 E， 则 总 的 文件 数 为 ExC/T*R。 
4. 基于 Hash 的 Shuffle 机 制 的 优 缺 点 
1) 优点 
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口 可 以 省 略 不 必要 的 排序 开销 。 

口 避免 了 排序 所 需 的 内 存 开销 。 

2) 缺点 

口 生成 的 文件 过 多 ， 会 对 文件 系统 造成 压力 。 

口 大 量 小 文件 的 随机 读 写 会 带 来 一 定 的 磁盘 开销 。 

口 数据 块 写 入 时 所 需 的 缓存 空间 也 会 随 之 增加 ， 会 对 内 存 造成 压力 。 


Hash Based Shuffle 数据 读 写 的 源码 解析 


1. 基于 Hash 的 Shuffle 实 现 方式 一 的 源码 解析 


下 面 针 对 Spark 1.6 版 本 中 的 基于 Hash 的 Shuffle 实现 在 数据 写 方面 进行 源码 解析 
(Spark2.0 版 本 中 已 无 Hash 的 Shuffle 实现 方式 )。 在 基于 Hash 的 Shuffle 实现 机 制 中 ， 采 用 
HashShuffleWriter 作为 数据 写 入 器 。 在 HashShuffleWriter 中 控制 Shuffle 写 数据 的 关键 代码 如 


下 所 示 。 


Spark 1.6.0 版 本 的 HashShuffleWriterscala 的 源码 (Spark 2.2 版 本 已 无 HashShuffle- 
Manager 方式 ) 如 下 。 


private[spark] class HashShuffleWriter[K, V]( 
shuffleBlockResolver: FileShuffleBlockResolver, 
handle: BaseShuffleHandle[K, V, ]， 

mapId: Int, 
context: TaskContext) 

extends ShuffleWriter[K, V] with Logging { 


// 控 制 每 个 Writer 输出 时 的 切片 个 数 ， 对 应 分 区 个 数 
Private val dep = handle.dependency 
private val numOutputSplits = dep.partitioner.numPartitions 


// 获 取 数据 读 写 的 块 管理 器 
private val blockManager = SparkEnv.get.blockManager 
private val ser = Serializer.getSerializer (dep.serializer.getOrElse (null)) 


. // 从 FileShuffleBlockResolver 的 forMapTask 方法 中 获取 指定 的 shuffleId 对 应 


// 的 mapId 


. // 对 应 分 区 个 数 构建 的 数据 块 写 的 ShuffleWriterGroup 实例 


private val shuffle = shuffleBlockResolver.forMapTask (dep.shuffleId, 
mapId, numOutputSplits, ser, writeMetrics) 
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/*# Task 输出 时 一 组 记录 的 写 入 */ 


override def write (records: Iterator [Product2[K，V]]): Unit = { 


. // 判 断 在 写 时 是 否 需要 先 聚 合 ， 即 定义 了 Map 端 Combine 时 ， 先 对 数据 进行 聚合 再 写 入 ， 和 否则 


// 直 接 返 回 需要 写 入 的 一 批 记录 


val iter = if (dep.aggregator.isDefined) { 

if (dep.mapSideCombine) { 
dep.aggregator.get.combineValuesByKey (records, context) 

} else { 
records 

2 

} else { 

require(!dep.mapSideCombine, "Map-side combine without Aggregator 

specified!") 

records 


} 


// 根 据 分 区 器 ， 获 取 每 条 记录 对 应 的 bucketId( 即 所 在 Reduce 序号 ) ， 根 据 bucketId 
// 从 FileShuffleBlockResolver 构建 的 ShuffleWriterGroup 中 ,获取 DiskBlock- 
//objectWriter 实例 ， 对 应 磁盘 数据 块 的 数据 写 入 器 
for (elem<- iter) { 
Val bucketId = dep.partitioner.getPartition (elem. 1) 
shuffle.writers (bucketId) .write (elem. 1, elem. 2) 


当 需 要 在 Map 端 进行 聚合 时 ， 使 用 的 是 聚合 器 (Aggregator) 的 combineValuesByKey 方 
法 ， 在 该 方法 中 使 用 ExternalAppendOnlyMap 类 对 记录 集 进 行 处 理 ， 处 理 时 如 果 内 存 不 足 ， 
会 引发 Spil 操作 。 早 期 的 实现 会 直接 缓存 到 内 存 ， 在 数据 量 比较 大 时 容易 引发 内 存 泄漏 。 

在 HashShuffleManager 中 ,ShuffleBlockResolver 特质 使 用 的 具体 子 类 为 FileShuffleBlock- 
Resolver， 即 指定 了 具体 如 何 从 一 个 逻辑 Shuffle 块 标识 信息 来 获取 一 个 块 数据 ， 对 应 为 下 面 
第 7 行 调用 的 forMapTask 方法 ， 具 体 代码 如 下 所 示 : 

Spark 1.6.0 版 本 的 FileShuffleBlockResolverscala 的 源码 (Spark 2.2 版 本 已 无 
HashShuffleManager 方式 ) 如 下 。 
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/** 
* 针 对 给 定 的 Map Task， 指 定 一 个 shuffleWriterGroup 实例 ， 在 数据 块 写 入 器 成 功 
* 关 闭 时 ， 会 注册 为 完成 状态 
*/ 


def forMapTask (shuffleId: Int, mapId: Int, numReduces: Int, serializer: 
Serializer, 
writeMetrics: ShuffleWriteMetrics): ShuffleWriterGroup = { 
new ShuffleWriterGroup { 
// 在 FileShuffleBlockResolver 中 维护 着 当前 Map Task 对 应 shuffleId 标识 
//Shuffle 中 ， 指 定 numReduces 个 数 的 Reduce 的 各 个 状态 


- ShuffleStates .putIfAbsent (shuffleld, new ShuffleState (numReduces) ) 


private val shuffleState = shuffleStates (shuffleId) 
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16. // 根 据 Reduce 端的 任务 个 数 ,构建 元 素 类 型 为 DiskBlockObjectWriter 的 数组 ， 
//DiskBlockObjectWriter 负责 具体 数据 的 磁盘 写 入 
17. ”// 原 则 上 ，shuffle 的 输出 可 以 存放 在 各 种 提供 存储 机 制 的 系统 上 ， 但 为 了 容错 性 等 方面 的 
// 考 虑 ， 目 前 的 Shuffle 实行 机 制 都 会 写 入 到 磁盘 中 


18 . 

19. val writers: Array[DiskBlockObjectWriter] = { 

20. // 这 里 的 逻辑 Bucket 的 Id 值 即 对 应 的 Reduce 的 任务 序号 ， 或 者 说 分 区 ID 

2 Array.tabulate[DiskBlockObjectWriter] (numReduces) { bucketId => 

2 // 针 对 每 个 Map 端 分 区 的 Id 与 Bucket 的 Id 构建 数据 块 的 逻辑 标识 

3 Val blockId = ShuffleBlockId(shufflelId, mapId, bucketId) 

24. val blockFile = blockManager.diskBlockManager .getFile (blockId) 

2 val tmp = Utils.tempFileWith (blockFile) 

26.blockManager .getDiskWriter (blockId, tmp, serializerInstance, bufferSize, 
writeMetrics) 

有 } 

28- } 

0 

30. // 任 务 完成 时 回调 的 释放 写 入 器 方法 

Ss override def releaseWriters(success: Boolean) { 

32. shuffleState.completedMapTasks .add (mapId) 

二 } 

34. } 

Se 


其 中 ，ShuffleBlockId 实例 构建 的 源码 如 下 所 示 。 
1. case class ShuffleBlockId(shuffleId: Int, maplId: Int, reduceld: Int) 
extends BlockId { 
六 override def name: String = "shuffle " + shuffleId + " " +mapId+" " 
+ reduceId 

3 

从 name 方法 的 重 载 上 可 以 看 出 ， 后 续 构 建 的 文件 与 代码 中 的 mapId、reduceld 的 关系 。 
当然 ， 所 有 同一 个 Shuffle 的 输出 数据 块 ， 都 会 带 上 shuffleld 这 个 唯一 标识 的 ， 因 此 全 局 角 
度 上 ， 罗 辑 数据 块 name 不 会 重复 (针对 一 些 推 测 机 制 或 失败 重 试 机 制 之 类 的 场景 而 已 ， 邮 
辑 name 没有 带 上 时 间 信息 ， 因 此 缺少 多 次 执行 的 输出 区 别 ， 但 在 管理 这 些 信 息 时 会 维护 一 
个 时 间作 为 有 效 性 判断 )。 


2. 基于 Hash 的 Shuffle 实 现 方式 二 的 源码 解析 


下 面 通过 详细 解析 FileShuffleBlockResolver 源码 来 加 深 对 文件 合并 机 制 的 理解 。 
1 于 在 Spark 1.6 中 ， 文 件 合并 机 制 已 经 删除 ， 因 此 下 面 基于 Spark 1.5 版 本 的 代码 对 文 
件 合并 机 制 的 具体 实现 细节 进行 解析 。 以 下 代码 位 于 FileShuffleBlockResolver 类 中 。 

合并 机 制 的 关键 控制 代码 如 下 所 示 。 

Spark 1.5.0 版 本 的 FileShuffleBlockResolverscala 的 源码 (Spark 2.2 版 本 已 无 
HashShuffleManager 方式 ) 如 下 。 





























工 。 /** 

辽 * 获 取 一 个 针对 特定 Map Task 的 ShuffleWriterGroup 
加 区 

4. 
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Ss 

7 def forMapTask (shufflelId: Int, mapId: Int, numBuckets: Int, serializer: 
Serializer, 

7. writeMetrics: ShuffleWriteMetrics): ShuffleWriterGroup = { 

8 new ShuffleWriterGroup { 

ee 

10: val writers: Array[DiskBlockObjectWriter] = if 


(consolidateShuffleFiles) { 
11. // 获 取 未 使 用 的 文件 组 
12. fileGroup = getUnusedFileGroup() 
3 Array.tabulate[DiskBlockObjectWriter] (numBuckets) { bucketId => 
14. val blockId = ShuffleBlockId(shufflelId, maplId, bucketId) 
15. // 注 意 获取 磁盘 写 入 器 时 ， 传 入 的 第 二 个 参数 与 未 使 用 文件 合并 机 制 时 的 差异 
16. //fileGroup (bucketId) : 构造 器 方式 调用 ， 对 应 apply 的 方法 调用 
17.blockManager.getDiskWriter (blockId, fileGroup (bucketId), serializerInstance, 
bufferSize, 
18. writeMetrics) 
gk i 
205 } else { 
中 Array.tabulate[DiskBlockObjectWriter] (numBuckets) { bucketId => 
22. val blockId = ShuffleBlockId(shuffleId，mapId，bucketId) 


23. // 根 据 ShuffleBlockId 信息 获取 文件 名 


4 val blockFile = blockManager.diskBlockManager.getFile (blockId) 

5 val tmp = Utils.tempFileWith (blockFile) 

26.blockManager .getDiskWriter (blockId, tmp, serializerInstance, bufferSize, 
writeMetrics) 

27s } 

28- 

4 

30. writeMetrics.incShuffleWriteTime (System.nanoTime - openStartTime) 

3 override def releaseWriters(success: Boolean) { 


32. // 带 文件 合并 机 制 时 ， 写 入 器 在 释放 后 的 处 理 
33. //3 个 关键 信息 mapId、offsets、1lengths 


人 34 if (consolidateShuffleFiles) { 

35> if (success) { 

36= val offsets = writers.map(_.fileSegment () .offset) 
ST val lengths = writers.map(_.fileSegment () .length) 
38. fileGroup.recordMapOutput (mapId, offsets, lengths) 

39° } 


40. // 回 收文 件 组 ， 便 于 后 续 复 用 
41. recycleFileGroup (fileGroup) 





42. } else { 

43. shuffleState.completedMapTasks.add (mapId) 
44. 于 

45. } 


其 中 , 第 10 行 中 的 consolidateShuffleFiles 变量 ,是 判断 是 否 设置 了 文件 合并 机 制 ， 当 设 
置 consolidateShuffleFiles 为 true 后 ， 会 继续 调用 getUnusedFileGroup 方法 ， 在 该 方法 中 会 获 
取 未 使 用 的 文件 组 ， 即 重新 分 配 或 已 经 释放 可 以 复 用 的 文件 组 。 

获取 未 使 用 的 文件 组 (ShuffleFileGroup) 的 相关 代码 getUnusedFileGroup 如 下 所 示 。 

Spark 1.5.0 版 本 的 FileShuffleBlockResolverscala 的 源码 (Spark 2.2 版 本 已 无 
HashShuffleManager 方式 ) 如 下 。 




















1. private def getUnusedFileGroup(): ShuffleFileGroup = { 


2. // 获 取 已 经 构建 但 未 使 用 的 文件 组 ， 如 果 获 取 失 败 ， 则 重新 构建 一 个 文件 组 


25 val fileGroup = shuffleState.unusedFileGroups.poll() 
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if (fileGroup != null) fileGroup else newFileGroup() 


// 重 新 构建 一 个 文件 组 的 源码 
private def newFileGroup(): ShuffleFileGroup = { 
// 构 建 后 会 对 文件 编号 进行 递增 ， 该 文件 编号 最 终 用 在 生成 的 文件 名 中 
val fileId = shuffleState.nextFileId.getAndIncrement () 
val files = Array.tabulate[File] (numBuckets) { bucketId => 


. // 最 终 的 文件 名 ， 可 以 通过 文件 名 的 组 成 及 取 值 细节 ， 加 深 对 实现 细节 在 文件 个 数 上 的 差异 的 理解 


val filename = physicalFileName (shuffleId，bucketId，fileId) 


。blockManager.diskBlockManager.getFile(filename) 


} 
. // 构 建 并 添加 到 shufflestate 中 ,便于 后 续 复 用 


val fileGroup = new ShuffleFileGroup(shufflelId, filelId, files) 


. shuffleState.allFileGroups.add (fileGroup) 
. fileGroup 


} 


其 中 ， 第 13 行 代 码 对 应 生成 的 文件 名 ， 即 物理 文件 名 ， 相 关 代码 如 下 所 示 。 
Spark 1.5.0 版 本 的 FileShuffleBlockResolverscala 的 源码 (Spark 2.2 版 本 已 无 
HashShuffleManager 方式 ) 如 下 。 


写本 
全 


private def physicalFileName (shuffleId: Int, bucketId: Int，fileIdq: Int) = { 
"merged shuffle %d %d sd" .format (shuffleId，bucketId，fileId) 
} 


可 以 看 到 ， 与 未 使 用 文件 合并 时 的 基于 Hash 的 Shuffle 实现 方式 不 同 的 是 ， 在 生成 的 文 
件 名 中 没有 对 应 的 mapId， 取 而 代 之 的 是 与 文件 组 相关 的 fleId， 而 fileId 则 是 多 个 Mapper 
端的 Task 所 共用 的 ， 在 此 仅 从 生成 的 物理 文件 名 中 也 可 以 看 出 文件 合并 的 某 些 实现 细节 。 

另外 ， 对 应 生成 的 文件 组 既然 是 复 用 的 ， 当 一 个 Mapper 端的 Task 执行 结束 后 ， 便 会 释 
放 该 文件 组 (ShuffleFileGroup)， 之 后 继续 调度 时 便 会 复 用 该 文件 组 。 对 应 地 ， 调 度 到 某 个 
Executor 工作 点 上 同时 运行 的 Task 最 大 个 数 ， 就 对 应 了 最 多 分 配 的 文件 组 个 数 。 

而 在 TaskSchedulerImpl 调度 Task 时 ， 各 个 Executor 工作 点 上 Task 调度 控制 的 源码 说 明 


了 在 各 个 Executor 工作 点 上 调度 并 行 的 Task 数 ， 具 体 代码 如 下 所 示 。 
1. private def resourceOfferSingleTaskSet( 
2. taskSet: TaskSetManager, 
3. maxLocality: TaskLocality, 
4. shuffledOoffers: Seq[WorkerOffer], 
5. availableCpus: Array[Int], 
)3 tasks: Seq[RrrayBuffer[TaskDescription]]) : Boolean = { 
7. var launchedTask = false 
8 . for (i <- 0 until shuffledOffers.size) { 
9. val execId = shuffledoffers (i) .executorId 
10. val host = shuffledoffers (i) .host 
11. // 判 断 当前 Executor 工作 点 上 可 用 的 内 核 个 数 是 否 满足 Task 所 需 的 内 核 个 数 
12. //CPUS PER TASK: 表示 设置 的 每 个 Task 所 需 的 内 核 个 数 
13. if (availableCpus(i) >= CPUS PER TRSK) { 
Ta Ery ll 
15. for (task <- taskSet.resourceOffer (execId, host, maxLocality)) { 
2 
17. launchedTask = true 
a 
人 Catel 
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24. return launchedTask 
4 


其 中 ， 设 置 每 个 Task 所 需 的 内 核 个 数 的 配置 属性 如 下 所 示 : 


1. // 每 个 任务 请 求 的 CPU 个 数 
2. val CPUS PER TASK = conf.getInt("spark.task.-cpus"，1) 


对 于 这 些 会 影响 Executor 中 并 行 执行 的 任务 数 的 配置 信息 ， 设 置 时 需要 多 方面 考虑 ， 包 
括 内 核 个 数 与 任务 个 数 的 合适 比例 ， 在 内 存 模型 中 ， 为 任务 分 配 内 存 的 具体 策略 等 。 任 务 分 
配 内 存 的 具体 策略 可 以 参考 Spark 官方 给 出 的 具体 设计 文档 ， 以 及 文档 中 各 种 设计 方式 的 权 


衡 等 内 容 。 


7.4 Sorted Based Shuffle 


在 历史 的 发 展 中 ,为 什么 Spark 最 终 还 是 放弃 了 HashShuffle, 使 用 了 Sorted-Based Shuffle， 
而 且 作 为 后 起 之 秀 的 Tungsten-based Shuffle 到 底 是 在 什么 样 的 背景 下 产生 的 。Tungsten-Sort 
Shuffle 已 经 并 入 了 Sorted-Based Shuffle，Spark 的 引擎 会 自动 识别 程序 需要 的 是 Sorted-Based 
Shuffle， 还 是 Tungsten-Sort Shuffle，Spark 会 检查 相对 的 应 用 程序 有 没有 Aggregrate 的 操作 。 
Sorted-Based Shuffle 也 有 缺点 ， 其 缺点 反而 是 它 排序 的 特性 , 它 强 制 要 求 数据 在 Mapper 端 必 
须 先 进行 排序 〈 注 意 ， 这 里 没有 说 对 计算 结果 进行 排序 ) ， 所 以 导致 它 排序 的 速度 有 点 慢 。 


而 Tungsten-Sort Shuffle 对 它 的 排序 算法 进行 了 改进 ， 优 化 了 排序 的 速度 。 


Spark 会 根据 宽 依 赖 把 它 一 系列 的 算 子 划分 成 不 同 的 Stage, Stage 的 内 部 会 进行 Pipeline、 


Stage 与 Stage 之 间 进 行 Shuffle。Shuffle 的 过 程 包含 三 部 分 ， 如 图 7-6 所 示 。 






Stage 2 






1| Pipeline | 
| 算 子 运行 js 
(Fikter、 
Map 等 ) 


Stage 3 


1 Shufme Shuflle 1 


7-6 _ Shuffle 的 过 程 示意 图 
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第 一 部 分 是 Shuffle 的 Writer; 第 二 部 分 是 网 络 传输 ; 第 三 部 分 是 Shuffle 的 Read， 这 三 
大 部 分 设置 了 内 存 操作 、 磁盘 IO、 网 络 IO 以 及 JVM 的 管理 。 而 这 些 东 西 是 影响 了 Spark 应 
用 程序 95% 以 上 效率 的 唯一 原因 。 假 设 程序 代码 本 身 非常 好 ， 性 能 的 95% 都 消耗 在 Shuffle 
阶段 的 本 地 写 磁盘 文件 、 网 络 传输 数据 以 及 抓 取 数 据 这 样 的 生命 周期 中 ， 如 图 7-7 所 示 。 








本 地 文件 夹 


Mapper 端 在 这 
广 个 Executor 任 务 
中 的 总 数量 





spark.executor.core / 
spark.task.cpus 


图 7-7 Shuffle 示意 图 


在 Shuffle 写 数据 的 时 候 ， 内 存 中 有 一 个 缓存 区 叫 Buffer， 可 以 将 其 想像 成 一 个 Map, 同 
时 在 本 地 磁盘 有 对 应 的 本 地 文件 。 如 果 本 地 磁盘 有 文件 ， 在 内 存 中 肯定 也 需要 有 对 应 的 管理 
句柄 。 也 就 是 说 ， 单 从 ShuffleWriter 内 存 占 用 的 角度 讲 ， 已 经 有 一 部 分 内 存 空间 用 在 存储 
Buffer 数据 ， 另 一 部 分 内 存 空间 是 用 来 管理 文件 句柄 的 , 回顾 HashShuffle 所 产生 小 文件 的 个 
数 是 Mapper 分 片 数量 XReducer 分 片 数量 (MXR) 。 例 如 ，Mapper 端 有 1000 个 数据 分 片 ， 
Reducer 端 也 有 1000 个 数据 分 片 , 在 HashShuffle 的 机 制 下 , 它 在 本 地 内 存 空间 中 会 产生 1000 
X 1000=1000000 个 小 文件 ， 结 果 可 想 而 知 ， 这 么 多 的 UO， 这 么 多 的 内 存 消 耗 、 这 么 容易 产 
生 OOM, 以 及 这 么 沉重 的 CG 负担 。 再 说 ,如 果 Reducer 端 去 读 取 Mapper 端的 数据 时 , Mapper 
端 有 这 么 多 的 小 文件 ， 要 打开 很 多 网 络 通道 去 读数 据 ， 打 开 1000000 端口 不 是 一 件 很 轻松 的 
事 。 这 会 导致 一 个 非常 经 典 的 错误 : Reducer 端 下 一 个 Stage 通过 Driver 去 抓 取 上 一 个 Stage 
属于 它 自己 的 数据 的 时 候 ， 说 文件 找 不 到 。 其 实 ， 这 个 时 候 不 是 真 的 在 磁盘 上 找 不 到 文件 ， 
而 是 程序 不 响应 ， 因 为 它 在 进行 垃圾 回收 (GC) 操作 。 

Spark 最 根本 要 优化 和 迫切 要 解决 的 问题 是 : 减少 Mapper 端 ShuffleWriter 产生 的 文件 数 
量 ， 这 样 便 可 以 让 Spark 从 几 百 台 集 群 的 规模 瞬间 变 成 可 以 支持 几 千 台 ， 甚 至 几 万 台 集群 的 
规模 (一 个 Task 背后 可 能 是 一 个 Core 去 运行 ， 也 可 能 是 多 个 Core 去 运行 ,但 默认 情况 下 是 
用 一 个 Core 去 运行 一 个 Task) 。 

减少 Mapper 端的 小 文件 带 来 的 好 处 是 : 

(1) Mapper 端的 内 存 占用 变 少 了 。 

(2) Spark 不 仅仅 可 以 处 理 小 规模 的 数据 ， 即 使 处 理 大 规模 的 数据 ， 也 不 会 很 容易 达到 
性 能 瓶颈 。 
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(3) Reducer 端 抓 取 数据 的 次 数 变 少 了 。 

(4) 网 络 通道 的 句柄 变 少 了 。 

(5) 不 仅仅 减少 了 数据 级 别 内 存 的 消耗 ， 更 极 大 减少 了 Spark 框架 运行 时 必须 消耗 
Reducer 的 内 容 。 





7.4.1 概述 





Sorted-Based Shuffle 的 出 现 ， 最 显著 的 优势 是 把 Spark 从 只 能 处 理 中 小 规模 数据 的 平 
台 ， 变 成 可 以 处 理 无 限 大 规模 数据 的 平台 。 集 群 规模 意味 着 Spark 处 理 数据 的 规模 ， 也 意味 
着 Spark 的 运算 能 力 。 

Sorted-Based Shuffle 不 会 为 每 个 Reducer 中 的 Task 生产 一 个 单独 的 文件 ， 相 反 ， 
Sorted-Based Shuffle 会 把 Mapper 中 每 个 ShuffleMapTask 所 有 的 输出 数据 Data 只 写 到 一 个 
文件 中 ， 因 为 每 个 ShuffleMapTask 中 的 数据 会 被 分 类 ， 所 以 Sort-based Shuffle 使 用 了 index 
文件 ， 存 储 具体 ShuffleMapTask 输出 数据 在 同一 个 Data 文件 中 是 如 何 分 类 的 信息 。 基 于 
Sort-based Shuffle 会 在 Mapper 中 的 每 个 ShuffleMapTask 中 产生 两 个 文件 (并 发 度 的 个 数 X2)， 
如 图 7-8 所 示 。 





Map 端 任务 


Reducer 端 任务 Reducer 谢 任务 Reducer 端 任务 





图 7-8 Sorted-Based Shuffle 示意 图 


图 7-8 会 产生 一 个 Data 文 件 和 一 个 Index 文 件 . 其 中 ,Data 文件 是 存储 当前 Task 的 Shuffle 
输出 的 ， 而 Index 文件 则 存储 了 Data 文件 中 的 数据 通过 Partitioner 的 分 类 信息 ， 此 时 下 一 个 
阶段 的 Stage 中 的 Task 就 是 根据 这 个 Index 文件 获取 自己 所 需要 抓 取 的 上 一 个 Stage 中 
ShuffleMapTask 所 产生 的 数据 。 

假设 现在 Mapper 端 有 1000 个 数据 分 片 ，Reducer 端 也 有 1000 个 数据 分 片 ， 它 的 并 发 
度 是 100, 使 用 Sorted-Based Shuffle 会 产生 多 少 个 Mapper 端的 小 文件 , 答案 是 100X2= 200 
个 。 它 的 MapTask 会 独自 运行 ， 每 个 MapTask 在 运行 时 写 两 个 文件 ， 运 行 成 功 后 就 不 需要 
这 个 MapTask 的 文件 句柄 ， 无 论 是 文件 本 身 的 句柄 ， 还 是 索引 的 句柄 ， 都 不 需要 ， 所 以 如 果 
它 的 并 发 度 是 100 个 Core， 每 次 运行 100 个 任务 ， 它 最 终 只 会 占用 200 个 文件 句柄 ， 这 与 
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HashShuffle 的 机 制 不 一 样 ，HashShuffle 最 差 的 情况 是 Hashed 句柄 存储 在 内 存 中 。 
图 7-9 中 ，Sorted-Based Shuffle 主要 在 Mapper 阶段 ， 这 个 跟 Reducer 端 没有 任何 关系 ， 

在 Mapper 阶段 ，Sorted-Based Shuffle 要 进行 排序 ， 可 以 认为 是 二 次 排序 ， 它 的 原理 是 有 两 个 
Key 进行 排序 ， 第 一 个 是 PartitionId 进行 排序 ， 第 二 个 是 本 身 数据 的 Key 进行 排序 。 它 会 把 
PartitionId 分 成 3 个 , 索引 分 别 为 0、1、2, 这 个 在 Mapper 端 进行 排序 的 过 程 其 实 是 让 Reducer 
去 抓 取 数 据 的 时 候 变 得 更 高 效 。 例 如 ， 第 一 个 Reducer， 它 会 到 Mapper 端的 索引 为 0 的 数据 
分 片 中 抓 取 数 据 。 有 具体 而 言 ，Reducer 首先 找 Driver 去 获取 父 Stage 中 每 个 ShuffleMapTask 
输出 的 位 置信 息 ， 根 据 位 置信 息 获 取 Index 文件 ， 解 析 Index 文件 ， 从 解析 的 Index 文件 中 
获取 Data 文件 中 属于 自己 的 那 部 分 内 容 。 
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7-9 ”Sorted-Based Shuffle 流程 图 


一 个 Mapper 任务 除了 有 一 个 数据 文件 外 ， 它 也 会 有 一 个 索引 文件 ，Map Task 把 数据 写 
到 文件 磁盘 的 顺序 是 根据 自身 的 Key 写 进 去 的 , 同时 也 是 按照 Partition 写 进去 的 ， 因 为 它 是 
顺序 写 数据 ， 记 录 每 个 Partition 的 大 小 。 

Sort-Based Shuffle 的 弱点 如 下 。 

(1) 如 果 Mapper 中 Task 的 数量 过 大 ， 依 旧 会 产生 很 多 小 文件 ， 此 时 在 Shuffle 传 数据 
的 过 程 中 到 Reducer 端 , Reducer 会 需要 同时 大 量 地 记录 进行 反 序列 化 ,导致 大 量 内 存 消 耗 和 
GC 负担 巨大 ， 造 成 系统 缓慢 ， 甚 至 崩溃 ! 

(2) 强制 了 在 Mapper 端 必须 要 排序 ， 这 里 的 前 提 是 数据 本 身 不 需要 排序 。 

(3) 如 果 在 分 片 内 也 需要 进行 排序 ， 此 时 需要 进行 Mapper 端 和 Reducer 端的 两 次 排序 。 

(4) 它 要 基于 记录 本 身 进行 排序 ， 这 就 是 Sort-Based Shuffle 最 致命 的 性 能 消耗 。 


7.4.2 Sorted Based Shuffle 内 核 


Sorted-Based Shuffle 的 核心 是 借助 于 ExtemalSorter 把 每 个 ShuffleMapTask 的 输出 排序 
到 一 个 文件 中 (FileSegmentGroup) ， 为 了 区 分 下 一 个 阶段 Reducer Task 不 同 的 内 容 ， 它 还 
需要 有 一 个 索引 文件 (Index) 来 告诉 下 游 Stage 的 并 行 任务 ， 那 一 部 分 是 属于 下 游 Stage 
的 ， 如 图 7-10 所 示 。 
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图 7-10 Sorted-Based Shuffle 的 核心 示意 图 


图 7-10 中 ， 在 Reducer 端 有 4 个 Reducer Task， 它 会 产生 一 组 File Group 和 一 个 索引 文 
件 ，File Group 里 的 FileSegement 会 进行 排序 ， 下 游 的 Task 很 容易 根据 索引 (index〉 定 位 到 
这 个 File 中 的 那 一 部 分 。FileSegement 是 属于 下 游 的 ， 相 当 于 一 个 指针 ， 下 游 的 Task 要 向 
Driver 去 确定 文件 在 哪里 , 然后 到 这 个 File 文件 所 在 的 地 方 , 实际 上 会 与 BlockManager 进行 
沟通 ，BlockManager 首先 会 读 一 个 Index 文件 ， 根 据 它 的 命名 规则 进行 解析 。 例 如 ， 下 一 个 
阶段 的 第 一 个 Task， 一 般 就 是 抓 取 第 一 个 Segment， 这 是 一 个 指针 定位 的 过 程 。 

Sort-Based Shuffle 最 大 的 意义 是 减少 临时 文件 的 输出 数量 ， 且 只 会 产生 两 个 文件 ， 一 个 
是 包含 不 同 内 容 ， 划 分 成 不 同 FileSegment 构成 的 单一 文件 File; 另外 一 个 是 索引 文件 Index。 
图 7-10 中 ，Sort-Based Shuffle 展示 了 一 个 Sort and Spill 的 过 程 ( 它 是 Spil 到 磁盘 的 时 候 再 
进行 排序 的 ) 。 


7.4.3 Sorted Based Shuffle 数据 读 写 的 源码 解析 


Sorted Based Shuffle， 即 基于 Sorted 的 Shuffle 实现 机 制 ， 在 该 Shuffle 过 程 中 ，Sorted 体 
现在 输出 的 数据 会 根据 目标 的 分 区 Id ( 即 带 Shuffle 过 程 的 目标 RDD 中 各 个 分 区 的 也 值 ) 进 
行 排序 ， 然后 写 入 一 个 单独 的 Map 端 输出 文件 中 。 相 应 地 ， 各 个 分 区 内 部 的 数据 并 不 会 再 根 
据 Key 值 进行 排序 ， 除 非 调 用 带 排 序 目 的 的 方法 , 在 方法 中 指定 Key 值 的 Ordering 实例 , 才 
会 在 分 区 内 部 根据 该 Ordering 实例 对 数据 进行 排序 。 当 Map 端的 输出 数据 超过 内 存 容纳 大 小 
时 ,会 将 各 个 排序 结果 Spil 到 磁盘 上 ， 最 终 再 将 这 些 Spill 的 文件 合并 到 一 个 最 终 的 文件 中 。 
在 Spark 的 各 种 计算 算 子 中 到 处 体现 了 一 种 惰性 的 理念 ， 在 此 也 类 似 ， 在 需要 提升 性 能 时 ， 
引入 根据 分 区 Id 排序 的 设计 ， 同 时 仅 在 指定 分 区 内 部 排序 的 情况 下 ， 才 会 全 局 去 排序 。 而 
Hadoop 的 MapReduce 相 比 之 下 带 有 一 定 的 学 术 气息 ， 中 规 中 矩 ， 严 格 设计 Shuffle 阶段 中 的 
各 个 步骤 。 

基于 Hash 的 Shuffle 实现 ，ShuffleManager 的 具体 实现 子 类 为 HashShuffleManager， 对 
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应 的 具体 实现 机 制 如 7-11 所 示 。 


SortShuffleManager 


registerShuffle[K, V, C] 
getWriter[K, V] 
getReader [K, C] 















































tmregisterShuffle |BypassMergeSortShuffleHandle 呈 
shuffleBlockResolver 上 | 中 
stop () 
「 BaseShuffleHandle 
BlockStoreShuffleReader 
SortShuffleWriter | 
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图 7-11 基于 Sorted 的 Shuffle 实现 机 制 的 框架 类 图 





在 图 7-11 中 ， 各 个 不 同 的 ShuffleHandle 与 不 同 的 具体 Shuffle 写 入 器 实现 子 类 是 一 一 对 
应 的 , 可 以 认为 是 通过 注册 时 生成 的 不 同 ShuffleHandle 设置 不 同 的 Shuffle 写 入 器 实现 子 类 。 

从 ShuffleManager 注册 的 配置 属性 与 具体 实现 子 类 的 映射 关系 ， 即 前 面 提 及 的 在 
SparkEnv 中 实例 化 的 代码 ， 可 以 看 出 sort 与 tungsten-sort 对 应 的 具体 实现 子 类 都 是 
org.apache.spark.shuffle.sort.SortShuffleManager。 也 就 是 当前 基于 Sort 的 Shuffle 实现 机 制 与 使 
用 Tungsten 项 目的 Shuffle 实现 机 制 都 是 通过 SortShuffleManager 类 来 提供 接口 , 两 种 实现 机 
制 的 区 别 在 于 ， 该 类 中 使 用 了 不 同 的 Shuffle 数据 写 入 器 。 

SortShuffleManager 根据 内 部 采用 的 不 同 实现 细节 ， 对 应 有 两 种 不 同 的 构建 Map 端 文件 
输出 的 写 方式 ， 分 别 为 序列 化 排序 模式 与 反 序列 化 排序 模式 。 

(1) 序列 化 排序 (Serialized sorting) 模式 : 这 种 方式 对 应 了 新 引入 的 基于 Tungsten 项 目 
的 方式 。 

(2) 反 序列 化 排序 (Deserialized sorting) 模式 : 这 种 方式 对 应 除了 前 面 这 种 方式 之 外 的 
其 他 方式 。 

基于 Sort 的 Shuffle 实现 机 制 采用 的 是 反 序列 化 排序 模式 。 下 面 分 析 该 实现 机 制 下 的 数 
据 写 入 器 的 实现 细节 。 

基于 Sort 的 Shuffle 实现 机 制 ， 具 体 的 写 入 器 的 选择 与 注册 得 到 的 ShuffleHandle 类 型 有 
关 ， 参 考 SortShuffleManager 类 的 registerShuffle 方法 ， 相 关 代码 如 下 所 示 。 

Spark 2.1.1 版 本 的 SortShuffleManagerscala 的 源码 如 下 。 


上 override def registerShuffle[K，V，C]( 
2 ShuffleId: Int, 
< numMaps: Int, 
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On 


dependency: ShuffleDependency[K, V, C]): ShuffleHandle = { 

// 通 过 shouldBypassMergeSort 方法 判断 是 否 满足 回 退 到 Hash 风格 的 shuffle 条 件 
if (SortShuffleWriter.shouldBypassMergeSort (SparkEnv.get.conf, 
dependency)) { 

// 如 果 当 前 的 分 区 个 数 小 于 设置 的 配置 属性 : 
//spark.shuffle.sort.bypassMergeThreshold, 同时 不 需要 在 Map 对 数据 进行 聚合 ， 
// 此 时 可 以 直接 写 文 件 ， 并 在 最 后 将 文件 合并 


new BypassMergeSortSshuffleHandle[K, V]( 
shufflelId, numMaps, dependency.asInstanceOf[ShuffleDependency[K, 
Welty 
} else if (SortShuffleManager.canUseSerializedShuffle (dependency)) { 
// 和 否则 ， 试 图 Map 输出 缓冲 区 的 序列 化 形式 ， 因 为 这 杨 更 高 效 
new SerializedShuffleHandle[K, V]( 
shufflelId, numMaps, dependency.asInstanceOf [ShuffleDependency[K, 
WA 
} else { 
// 和 否则 ， 缓 冲 在 反 序列 化 形式 Map 输出 
new BaseShuffleHandle (shuffleId，numMaps，dependency) 
} 


Spark 2.2.0 版 本 的 SortShuffleManager.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 
上 段 代 码 中 第 6 行 shouldBypassMergeSort 方法 的 第 一 个 传 入 参数 SparkEnv.get.conf 微调 为 conf。 


汪汪 


if (SortShuffleWriter.shouldBypassMergeSort (conf, dependency)) { 


Sorted Based Shuffle 写 数 据 的 源码 解析 如 下 。 

基于 Sort 的 Shuffle 实现 机 制 中 相关 的 ShuffleHandle 包含 BypassMergeSortShuffleHandle 
与 BaseShuffleHandle。 对 应 这 两 种 ShuffleHandle 及 其 相关 的 Shuffle 数据 写 入 器 类 型 的 相关 
代码 可 以 参考 SortShuffleManager 类 的 getWriter 方法 ， 关 键 代 码 如 下 所 示 。 

SortShuffleManager 的 getWriter 的 源码 如 下 。 


ON 性 
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override def getWriter[K, V]( 
handle: ShuffleHandle, 
mapId: Int, 
context: TaskContext): ShuffleWriter[K, V] = { 
numMapsForShuffle.putIfAbsent ( 
handle.shuffleId, handle.asInstanceOf[BaseShuffleHandle[ , _, 
]] .numMaps) 
val env = SparkEnv.get 
// 通 过 对 ShuffleHandle 类 型 的 模式 匹配 ， 构 建 具体 的 数据 写 入 器 
handle match { 
case unsafeShuffleHandle: SerializedShuffleHandle[K @unchecked, V 
@unchecked] => 
new UnsafeShuffleWriter( 
env.blockManager, 
shuffleBlockResolver.asInstanceOf [IndexShuffleBlockResolver] 
context .taskMemoryManager () ， 
unsafeShuffleHandle, 
mapId, 
context, 
env.conf) 
case bypassMergeSortHandle: BypassMergeSortShuffleHandle[K 
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Qunchecked，V @unchecked] => 


20 . new BypassMergeSortShuffleWriter( 

2 env.blockManager, 

区 shuffleBlockResolver.asInstanceOf[IndexShuffleBlockResolver], 

3 bypassMergeSortHandle, 

24. mapId, 

2 context, 

2 env.conf) 

i case other: BaseShuffleHandle[K @unchecked, V @unchecked, ] => 

228 new SortShuffleWriter(shuffleBlockResolver, other, mapId, 
context) 

A } 

30 . } 


在 对 应 构建 的 两 种 数据 写 入 器 类 BypassMergeSortShuffleWriter 与 SortShuffleWriter 中 ， 
都 是 通过 变量 shuffleBlockResolver 对 逻辑 数据 块 与 物理 数据 块 的 映射 进行 解析 ， 而 该 变量 使 
用 的 是 与 基于 Hash 的 Shuffle 实现 机 制 不 同 的 解析 类 , 即 当前 使 用 的 IndexShuffleBlockResolver。 
下 面 开 始 解析 这 两 种 写 数据 块 方式 的 源码 实现 。 


1. BypassMergeSortShuffleWriter 写 数据 的 源码 解析 


该 类 实现 了 带 Hash 风格 的 基于 Sort 的 Shuffle 机 制 ， 为 每 个 Reduce 端的 任务 构建 一 个 
输出 文件 ， 将 输入 的 每 条 记录 分 别 写 入 各 自 对 应 的 文件 中 ， 并 在 最 后 将 这 些 基于 各 个 分 区 的 
文件 合并 成 一 个 输出 文件 。 

在 Reducer 端 任务 数 比较 少 的 情况 下 ， 基 于 Hash 的 Shuffle 实现 机 制 明显 比 基于 Sort 的 
Shuffle 实现 机 制 要 快 ， 因 此 基于 Sort 的 Shuffle 实现 机 制 提供 了 一 个 fallback 方案 ， 对 于 
Reducer 端 任务 数 少 于 配置 属性 spark.shuffle.sort.bypassMergeThreshold 设置 的 个 数 时 ， 使 用 
带 Hash 风格 的 fallback 计划 ， 由 BypassMergeSortShuffleWriter 具体 实现 。 

使 用 该 写 入 器 的 条 件 如 下 所 示 : 

(1) 不 能 指定 Ordering， 从 前 面 数 据 读 取 器 的 解析 可 以 知道 ， 当 指定 Ordering 时 ， 会 对 
分 区 内 部 的 数据 进行 排序 。 因 此 ， 对 应 的 BypassMergeSortShuffleWriter 写 入 器 避免 了 排序 开销 。 

(2) 不 能 指定 Aggregator。 

(3) 分 区 个 数 小 于 spark.shuffle.sort.bypassMergeThreshold 配置 属性 指定 的 个 数 。 

和 其 他 ShuffleWriter 的 具体 子 类 一 样 ，BypassMergeSortShuffleWriter 写 数 据 的 具体 实现 
位 于 实现 的 write 方法 中 ， 关 键 代 码 如 下 所 示 。 

BypassMergeSortShuffleWriter.scala 的 write 的 源码 如 下 。 

可 public void write (Iterator<Product2<K，V>> records) throws IOException { 


2. ”// 为 每 个 Reduce 端的 分 区 打开 的 DiskBlockObjectWriter 存放 于 partitionWriters， 
// 需 要 根据 具体 Reduce 端的 分 区 个 数 进行 构建 


3 

4. 

Lo assert (partitionWriters == null); 

6 if (!records .hasNext()) { 

7 partitionLengths = new long[numPartitions]; 

8 // 初 始 化 索引 文件 的 内 容 ， 此 时 对 应 各 个 分 区 的 数据 量 或 偏 移 量 需 要 在 后 续 获取 分 区 的 真实 
// 数 据 量 时 重 写 

号 

10 . shuffleBlockResolver.writeIndexFileAndCommit (shufflelId, mapId, 


partitionLengths, null); 


“a 
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// 下 面 代码 的 调用 形式 是 对 应 在 Java 类 中 调用 Scala 提供 的 object 中 的 apply 方法 
// 的 形式 ， 是 由 编译 器 编译 Scala 中 的 object 得 到 的 结果 来 决定 的 


mapStatus = MapStatus$ .MODULES .apply (blockManager.shuffleServerId(), 
partitionLengths); 
return; 
} 
final SerializerInstance serInstance = serializer.newInstance(); 
final long openStartTime = System.nanoTime(); 
// 对 应 每 个 分 区 各 配置 一 个 磁盘 写 入 器 DiskBlockObjectWriter 
partitionWriters = new DiskBlockObjectWriter[numPartitions]; 
partitionWriterSegments = new FileSegment [numPartitions]; 
// 注 意 ， 在 该 写 入 方式 下 ， 会 同时 打开 numPartitions 个 DiskBlockObjectWriter， 
// 因 此 对 应 的 分 区 数 不 应 设置 过 大 ， 避 免 带 来 过 大 的 内 存 开 销 目前 对 应 DiskBlock- 
//objectWriter 的 缓存 大 小 默认 配置 为 32KB， 比 早先 的 100KB 降低 了 很 多 ， 但 也 说 明 
// 不 适合 同时 打开 太 多 的 DiskBlockObjectWriter 实例 
for (int i = 0; i < numPartitionsy i++) { 
final Tuple2<TempShuffleBlockId, File> tempShuffleBlockIdPlusFile = 
blockManager .diskBlockManager () .createTempShuffleBlock (); 
final File file = tempShuffleBlockIdPlusFile. 2(); 
final BlockId blockId = tempShuffleBlockIdPlusFile. 1(); 
partitionWriters[i] = 
blockManager .getDiskWriter (blockId, file, serInstance, 
fileBufferSize, writeMetrics); 


} 


// 创 建文 件 写 入 和 创建 磁盘 写 入 器 都 涉 及 与 磁盘 的 交互 ， 当 打开 许多 文件 时 ,磁盘 写 会 花费 
// 很 长 时 间 ， 所 以 磁盘 写 入 时 间 应 包含 在 Shuffle 写 入 时 间 内 


writeMetrics.incWriteTime (System.nanoTime () - openStartTime) ; 
// 读 取 每 条 记录 ， 并 根据 分 区 器 将 该 记录 交 由 分 区 对 应 的 DiskBlockObjectWriter， 
// 写 入 各 自 对 应 的 临时 文件 中 


while (records .hasNext()) { 
final Product2<K, V> record = records .next () 
final K key = record. 1(); 
partitionWriters [partitioner.getPartition (key)] .write (key, 
recorgd. 200)s 


} 


for (int i = 0; i < numPpartitions; i++) { 
final DiskBlockObjectWriter writer = partitionWriters[i]; 
partitionWriterSegments[i] = writer.commitAndGet (); 
writer.close(); 
} 
// 获 取 最 终 合 并 后 的 文件 名 ， 对 应 格式 为 : "shuffle "+ shuffleId+" "+mapId 
// +" "+reduceId + ".index"， 并且 其 中 的 reduceId 为 0， 对 应 的 含义 就 是 
// 该 文件 包含 所 有 为 Reduce 端 输出 的 数据 
File output = shuffleBlockResolver.getDataFile(shuffleId, mapId); 
File tmp = Utils.tempFileWith(output); 
try, 4 
// 在 此 合并 前 面 生 成 的 各 个 中 间 临 时 文件 ， 并 获取 各 个 分 区 对 应 的 数据 量 ， 由 数据 量 可 以 得 
// 到 对 应 的 偏 移 量 


partitionLengths = writePartitionedFile (tmp); 


// 主 要 是 根据 前 面 获取 的 数据 量 ， 重 写 Index 文件 中 的 偏 移 量 信息 
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5 shuffleBlockResolver.writeIndexFileAndCommit (shuffleId, mapId, 
partitionLengths, tmp); 

Loy } finally { 

SB if (tmp.exists() && !tmp.delete()) { 

S59 logger.error ("Error while deleting temp file {}", 

tmp.getAbsolutePath()); 
60. | 
61 


62. // 封 装 并 返回 任务 结果 

G3 mapStatus = MapStatus$ .MODULES$ .apply (blockManager .shuffleServerId(), 
partitionLengths); 

64. ) 


其 中 调用 的 createTempShuffleBlock 方法 描述 了 各 个 分 区 生成 的 中 间 临 时 文件 的 格式 与 
对 应 的 BlockId， 具 体 代码 如 下 所 示 。 
DiskBlockManager 的 createTempShuffleBlock 的 源码 如 下 。 
1. /** 中 间 临 时 文件 名 的 格式 由 前 级 temp_shuffle 与 randomUUID 组 成 ， 可 以 唯一 标识 
BlockId*/ 
和 def createTempShuffleBlock(): (TempShuffleBlockId, File) = { 
Var blockId = new TempShuffleBlockId(UUID.randomUUID () ) 
while (getFile (blockId) .exists()) { 
blockId = new TempShuffleBlockId(UUID.randomUUID() ) 
} 
(blockId, getFile(blockId)) 
} 


从 上 面 的 分 析 中 可 以 知道 ， 每 个 Map 端的 任务 最 终 会 生成 两 个 文件 ， 即 数据 (Data) 文 
件 和 索引 (Index) 文件 。 

另外 ， 使 用 DiskBlockObjectWriter 写 记录 时 ， 是 以 32 条 记录 批 次 写 入 的 ， 不 会 占用 太 
大 的 内 存 。 但 由 于 对 应 不 能 指定 聚合 器 (Aggregator)， 写 数据 时 也 是 直接 写 入 记录 ， 因 此 对 
应 后 续 的 网 络 IO 的 开销 也 会 很 大 。 


2. SortShuffleWriter 写 数据 的 源码 解析 


co ~awm 必 wN 


前 面 BypassMergeSortShuffleWriter 的 写 数据 是 在 Reducer 端的 分 区 个 数 较 少 的 情况 下 提 
供 的 一 种 优化 方式 ， 但 当 数 据 集 规模 非常 大 时 ， 使 用 该 写 数据 方式 不 合适 时 ， 就 需要 使 用 
SortShuffleWriter 来 写 数据 块 。 

和 其 他 ShuffleWriter 的 具体 子 类 一 样 ，SortShuffleWriter 写 数 据 的 具体 实现 位 于 实现 的 
write 方法 中 ， 关 键 代码 如 下 所 示 。 

SortShuffleWriter 的 write 的 源码 如 下 。 





本 override def write (records: Iterator[Product2[K, V]]): Unit = { 

2. // 当 需要 在 Map 端 进行 聚合 操作 时 ， 此 时 将 会 指定 聚合 器 (Aggregator) 

3. // 将 Key 值 的 Ordering 传 入 到 外 部 排序 器 ExternalSorter 中 

A sorter = if (dep.mapSideCombine) { 

5 require (dep.aggregator.isDefined, "Map-side combine without 
Aggregator specified!") 


6 new ExternalSorter[K, V, Cl]( 

J context, dep.aggregator, Some (dep.partitioner), dep.keyOrdering, 
dep.serializer) 

} else { 
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// 没 有 指定 Map 端 使 用 聚合 时 ， 传 入 ExternalSorter 的 聚合 器 (Aggregator) 
// 与 Key 值 的 Ordering 都 设 为 None， 即 不 需要 传 入 ， 对 应 在 Reduce 端 读 取 数 据 
// 时 才 根据 聚合 器 分 区 数据 进行 聚合 ， 并 根据 是 否 设置 0rdering 而 选择 是 否 对 分 区 
// 数 据 进行 排序 
new ExternalSorter [K，V，V] ( 
context, aggregator = None, Some (dep.partitioner), ordering = None, 
dep.serializer) 
} 
// 将 写 入 的 记录 集 全 部 放 入 外 部 排序 器 


sorter.insertAll (records) 


// 不 要 费心 在 Shuffle 写 时 间 中 , 包括 打开 合并 输出 文件 的 时 间 ， 因为 它 只 打开 一 个 文件 ， 
// 所 以 通常 太 快 ， 无 法 精确 测量 ( 见 Spark-3570) 
// 和 BypassMergeSortShuffleWriter 一 样 ， 获 取 输 出 文件 名 和 BlockId 
val output = shuffleBlockResolver.getDataFile (dep.shuffleId, mapId) 
val tmp = Utils.tempFileWith (output) 
Ezy 
val blockId = ShuffleBlockId (dep.shufflelId, mapId, 
IndexShuffleBlockResolver .NOOP REDUCE ID) 
// 将 分 区 数据 写 入 文件 ， 返 回 各 个 分 区 对 应 的 数据 量 
val partitionLengths = sorter.writePartitionedFile (blockId, tmp) 
// 和 BypassMergeSortSshuffleWriter 一 样 ， 更 新 索引 文件 的 偏 移 量 信息 
shuffleBlockResolver.writeIndexFileAndCommit (dep.shuffleId，mapId,， 
partitionLengths, tmp) 
mapStatus = MapStatus (blockManager .shuffleServerId, partitionLengths) 
} finally { 
if (tmp.exists() && !tmp.delete()) { 
logError (s"Error while deleting temp file ${tmp.getAbsolutePath}") 
} 
. 
} 


在 这 种 基于 Sort 的 Shuffle 实现 机 制 中 引入 了 外 部 排序 器 (ExtemalSorter)。ExtemalSorter 
继承 了 Spillable, 因此 内 存 使 用 达到 一 定 阔 值 时 , 会 Spil 到 磁盘 , 可 以 减少 内 存 带 来 的 开销 。 

外 部 排序 器 的 insertAll 方法 内 部 在 处 理 完 〈 包 含 聚合 和 非 聚 合 两 种 方式 ) 每 条 记录 时 ， 
都 会 检查 是 否 需要 Spil。 内 部 各 种 细节 比较 多 ， 这 里 以 Spill 条 件 判 断 为 主线 ， 简 单 描述 一 下 条 
件 相关 的 代码 。 具体 判断 是 否 需要 Spill 的 相关 代码 可 以 参考 Spillable 类 中 的 maybeSpil 方法 (该 
方法 的 简单 调用 流程 为 : ExtemalSorter #insterAll->ExtemalSorter #maybeSpillCollection 
->SpillableftmaybeSpill)， 关 键 代码 如 下 所 示 。 

Spillable 的 maybeSpill 的 源码 如 下 。 


camwm 必 wm 





protected def maybeSpill (collection: C，currentMemory: Long) : Boolean = { 
// 判 断 是 否 需 要 Spi1l 
var shouldSpill = false 
//1. 检查 当前 记录 数 是 否 是 32 的 倍数 一 一 即 对 小 批量 的 记录 集 进行 Spil1 
//2. 同时 ， 当 前 需要 的 内 存 大 小 是 否 达到 或 超过 了 当前 分 配 的 内 存 阔 值 
if (elementsRead %$ 32 == 0 && currentMemory >= myMemoryThreshold) { 
// 从 shuffle 内存 池 中 获取 当前 内 存 的 两 倍 
val amountToRedquest = 2 * currentMemory - myMemoryThreshold 
// 实 际 上 会 先 申请 内 存 ， 然 后 青 次 判断 ， 最 后 决定 是 否 Spil1 
val granted = acquireMemory (amountToRequest) 
myMemoryThreshold += granted 
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发 这 // 内 存 很 少时 ， 如 果 准 许 内 存 进一步 增长 (tryToAcquire 返回 0， 或 者 比 
//myMemoryThreshold 更 多 的 内 存 ) ， 当 前 的 collection 将 会 溢出 

14. shouldSpill = currentMemory >= myMemoryThreshold 

了 


} 
6 // 当 满足 下 列 条 件 之 一 时 ， 需 要 Spi11， 条 件 如 下 所 示 : 
7 //1. 当前 判断 结果 为 true 
了 BE //2. 从 上 次 Spill 之 后 所 读 取 的 记录 数 超过 配置 的 阔 值 时 


19. // 配 置 属性 为 : spark.shuffle.spill.numElementsForceSpillThreshold 

DO shouldSpill = shouldSpill 11 elementsRead > 
numElementsForceSpillThreshold 

2 //Actually spill 

22。 if (shouldSpill) { 

之 3 spillCount += 1 

2 logSpillage (currentMemory) 

2 spill (collection) 

26. _elementsRead = 0 

2 memoryBytesSpilled += currentMemory 

28;: releaseMemory () 

9 } 

30. shouldSpil1 

3 


对 于 外 部 排序 器 ， 除 了 insertAll 方法 外 ， 它 的 writePartitionedFile 方法 也 非常 重要 。 

ExternalSorter.scala 的 writePartitionedFile 的 源码 如 下 。 

1. def writePartitionedFilel( 

2. blockId: BlockId, 

3. outputFile: File): Array[Long] = { 

其 中 ，BlockId 是 数据 块 的 逻辑 位 置 ，File 参数 是 对 应 逻辑 位 置 的 物理 存储 位 置 。 这 两 个 
参数 值 的 获取 方法 和 使 用 BypassMergeSortShuffleHandle 及 其 对 应 的 ShuffleWriter 是 一 样 的 。 

在 该 方法 中 ， 有 一 个 容易 混淆 的 地 方 ， 与 Shuffle 的 度量 (Metric) 信息 有 关 ， 对 应 代码 
如 下 所 示 。 

1. context.taskMetrics().incMemoryBytesSpilled (memoryBytesSpilled) 

2. context.taskMetrics().incDiskBytesSpilled(diskBytesSpilled) 


其 中 ,第 1 行 对 应 修改 了 Spilled 的 数据 在 内 存 中 的 字 节 大 小 ,第 2 行 则 对 应 修改 了 Spilled 
的 数据 在 磁盘 中 的 字 节 大 小 。 在 内 存 中 时 , 数据 是 以 反 序 列 化 形式 存放 的 , 而 存储 到 磁盘 ( 默 
认 会 序列 化 ) 时， 会 对 数据 进行 序列 化 。 反 序列 化 后 的 数据 会 远 远大 于 序列 化 后 的 数据 (也 
可 以 通过 UI 界面 查看 这 两 个 度量 信息 的 大 小 差异 来 确认 ， 具 体 差异 的 大 小 和 数据 以 及 选择 
的 序列 化 器 有 关 ， 有 兴趣 的 读者 可 以 参考 各 序列 器 间 的 性 能 等 比较 文档 )。 

从 这 一 点 也 可 以 看 出 ， 如 果 在 内 存 中 使 用 反 序 列 化 的 数据 ， 会 大 大 增加 内 存 的 开销 (也 
意味 着 增加 GC 负载 )， 并 且 反 序列 化 也 会 增加 CPU 的 开销 ， 因 此 引入 了 利用 Tungsten 项 目 
的 基于 Tungsten Sort 的 Shuffle 实现 机 制 。Tungsten 项 目的 优化 主要 有 三 个 方面 , 这 里 从 避免 
反 序 列 化 的 数据 量 会 极 大 消耗 内 存 这 方面 考虑 ， 主 要 是 借助 Tungsten 项 目的 内 存 管 理 模 型 ， 
可 以 直接 处 理 序列 化 的 数据 ;同时 ，CPU 开销 方面 ， 直 接 处 理 序 列 化 数据 ， 可 以 避免 数据 反 
序列 化 的 这 部 分 处 理 开销 。 
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7.5 Tungsten Sorted Based Shuffle 


本 节 讲 解 Tungsten Sorted Based Shuffle,， 包括 Tungsten Sorted Based Shuffle 概述 、 
Tungsten Sorted Based 内 核 、Tungsten Sorted Based 数据 读 写 的 源码 解析 等 内 容 。 


7.5.1 概述 


基于 Tungsten Sort 的 Shuffle 实现 机 制 主 要 是 借助 Tungsten 项 目 所 做 的 优化 来 高 效 处 理 
Shuffle。 

Spark 提供 了 配置 属性 ， 用 于 选择 具体 的 Shuffle 实现 机 制 ， 但 需要 说 明 的 是 ， 虽 然 默认 
情况 下 Spark 默认 开启 的 是 基于 Sort 的 Shuffle 实现 机 制 ( 对 应 spark.shuffle.manager 的 默认 
值 ), 但 实际 上 ,参考 Shuffle 的 框架 内 核 部 分 可 知 基于 Sort 的 Shuffle 实现 机 制 与 基于 Tungsten 
Sort 的 Shuffle 实现 机 制 都 是 使 用 SortShuffleManager， 而 内 部 使 用 的 具体 的 实现 机 制 ， 是 通 
过 提供 的 两 个 方法 进行 判断 的 。 对 应 非 基 于 Tungsten Sort 时 ， 通 过 SortShuffleWriter. 
shouldBypassMergeSort 方法 判断 是 否 需 要 回 退 到 Hash 风格 的 Shuffle 实现 机 制 ， 当 该 方法 返 
回 的 条 件 不 满足 时 ， 则 通过 SortShuffleManagercanUseSerializedShuffle 方法 判断 是 否 需 要 采 
用 基于 Tungsten Sort 的 Shuffle 实现 机 制 ， 而 当 这 两 个 方法 返回 都 为 false， 即 都 不 满足 对 应 
的 条 件 时 ， 会 自动 采用 常规 意义 上 的 基于 Sort 的 Shuffle 实现 机 制 。 

因此 ， 当 设置 了 spark.shuffle manager=tungsten-sort 时 ， 也 不 能 保证 就 一 定 采 用 基于 
Tungsten Sort 的 Shuffle 实现 机 制 。 有 兴趣 的 读者 可 以 参考 Spark 1.5 及 之 前 的 注册 方法 的 实 
现 ， 该 实现 中 SortShuffleManager 的 注册 方法 仅 构建 了 BaseShuffleHandle 实例 ， 同 时 对 应 的 
getWriter 中 也 只 对 应 构建 了 BaseShuffleHandle 实例 。 











7.5.2 Tungsten Sorted Based Shuffle 内 核 


基于 Tungsten Sort 的 Shuffle 实现 机 制 的 入 口 点 仍然 是 SortShuffleManager 类 , 与 同样 在 
SortShuffleManager 类 控制 下 的 其 他 两 种 实现 机 制 不 同 的 是 ， 基 于 Tungsten Sort 的 Shuffle 实 
现 机 制 使 用 的 ShuffleHandle 与 ShuffleWriter 分 别 为 SerializedShuffleHandle 与 UnsafeShuffleWriter。 
因此 ， 对 应 的 具体 实现 机 制 可 以 用 图 7-12 来 表示 ， 对 应 如 下 。 

在 Sorted Based Shuffle 中 ，SortShuffleManager 根据 内 部 采用 的 不 同 实 现 细节 , 分 别 给 出 
两 种 排序 模式 ， 而 基于 TungstenSort 的 Shuffle 实现 机 制 对 应 的 就 是 序列 化 排序 模式 。 

从 图 7-12 中 可 以 看 到 基于 Sort 的 Shuffle 实现 机 制 ， 具 体 的 写 入 器 的 选择 与 注册 得 到 的 
ShuffleHandle 类 型 有 关 ， 参 考 SortShuffleManager 类 的 registerShuffle 方法 。 

registerShuffle 方法 中 会 判断 是 否 满足 序列 化 模式 的 条 件 ， 如 果 满 足 ， 则 使 用 基于 
TungstenSort 的 Shuffle 实现 机 制 ， 对 应 在 代码 中 ， 表 现 为 使 用 类 型 为 SerializedShuffleHandle 
的 ShuffleHandle。 上 述 代码 进一步 说 明了 在 spark.shuffle manager 设置 为 sort 时 ,内 部 会 自动 
选择 具体 的 实现 机 制 。 对 应 代码 的 先后 顺序 ， 就 是 选择 的 先后 顺序 。 

对 应 的 序列 化 排序 (Serialized sortimg) 模式 需要 满足 的 条 件 如 下 所 示 。 
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SortShuffleManager 


TegisterShuffle[K，V，C] 
getWriter[K, V] 

getReader[K, C] 一 一 
unregisterShuffle 

呈 shuffleBlockResolver 

stop() 














SerializedShuffleHandle 

















| BlockStoreShuffleReader 


| | 




















ee eShuffleWriter | | 





IndexShuffleBlockResolver 


图 7-12 基于 TungstenSort 的 Shuffle 实现 机 制 的 框架 类 图 





(1) Shuffle 依赖 中 不 带 聚 合 操作 或 没有 对 输出 进行 排序 的 要 求 。 

(2)Shuffle 的 序列 化 器 支持 序列 化 值 的 重 定 位 (当前 仅 支持 KryoSerializer 以 及 Spark SQL 
子 框架 自 定义 的 序列 化 器 )。 

(3) Shuffle 过 程 中 的 输出 分 区 个 数 少 于 16 777 216 个 。 

实际 上 ， 使 用 过 程 中 还 有 其 他 一 些 限制 ， 如 引入 那个 Page 形式 的 内 存 管理 模型 后 ， 内 音 
单条 记录 的 长 度 不 能 超过 128 MB (具体 内 存 模 型 可 以 参考 PackedRecordPointer 类 ) 。 另 外 ， 
分 区 个 数 的 限制 也 是 该 内 存 模 型 导致 的 (同样 参考 PackedRecordPointer 类 ) 。 

所 以 ， 目 前 使 用 基于 TungstenSort 的 Shuffle 实现 机 制 条 件 还 是 比较 苛刻 的 。 


7.5.3 ”Tungsten Sorted Based Shuffle 数据 读 写 的 源码 解析 


对 应 这 种 SerializedShuffleHandle 及 其 相关 的 Shuffle 数据 写 入 器 类 型 的 相关 代码 ， 可 以 
参考 SortShuffleManager 类 的 getWiiter 方法 ， 关 键 代 码 如 下 所 示 。 
SortShuffleManager.scala 的 源码 如 下 。 


/** 为 指定 的 分 区 提供 一 个 数据 写 入 器 。 该 方法 在 Map 端的 Tasks 中 调用 */ 
override def getWriter[K, V]( 

handle: ShuffleHandle, 

mapId: Int, 

context: TaskContext): ShuffleWriter[K, V] = { 
numMapsForShuffle.putIfAbsent ( 

handle.shufflelId, handle.asInstanceOf [BaseShuffleHandle[ ， 二 

]] .numMaps) 

val env = SparkEnv .get 
handle match { 
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0s //SerializedShuffleHandle 对 应 的 写 入 器 为 UnsafeShuffleWriter 
// 使 用 的 数据 块 逻 辑 与 物理 映射 关系 仍然 为 IndexShuffleBlockResolver， 对 应 
//SortshuffleManager 中 的 变量 ， 因 此 相同 


> case unsafeShuffleHandle: SerializedShuffleHandle[K @unchecked, V 
Qunchecked] => 

12. new UnsafeShuffleWriter( 

I env.blockManager, 

i 轴 shuffleBlockResolver.asInstanceOf[IndexShuffleBlockResolver], 

5 context .taskMemoryManager ()，, 

16. unsafeShuffleHandle, 

下 了 mapId, 

18; context, 

19. env.conf) 

和 case bypassMergeSortHandle: BypassMergeSortShuffleHandle[K @ 
unchecked, V Qunchecked] => 

2 new BypassMergeSortShuffleWriter( 

2 env.blockManager, 

人 35 shuffleBlockResolver.asInstanceOf[IndexShuffleBlockResolver]， 

24. bypassMergeSortHandle, 

25- mapId, 

26. context, 

2 env.conf) 

2 case other: BaseShuffleHandle[K @unchecked, V @unchecked, ] => 

29. new SortShuffleWriter (shuffleBlockResolver, other, mapId, context) 

30 

3 } 

< } 


数据 写 入 器 类 UnsafeShuffleWriter 中 使 用 SortShuffleManager 实例 中 的 变量 
shuffleBlockResolver 来 对 逻辑 数据 块 与 物理 数据 块 的 映射 进行 解析 ， 而 该 变量 使 用 的 是 与 基 
于 Hash 的 Shuffle 实现 机 制 不 同 的 解析 类 ， 即 当前 使 用 的 IndexShuffleBlockResolver。 

UnsafeShuffleWriter 构建 时 传 入 了 一 个 与 其 他 两 种 基于 Sorted 的 Shuffle 实现 机 制 不 同 的 
参数 : context.taskMemoryManager()， 在 此 构建 了 一 个 TaskMemoryManager 实例 并 传 入 
UnsafeShuffleWriter。TaskMemoryManager 与 Task 是 一 对 一 的 关系 ， 负 责 管理 分 配给 Task 的 
内 存 。 

下 面 开始 解析 写 数据 块 的 UnsafeShuffleWiriter 类 的 源码 实现 。 首 先 来 看 其 write 的 方法 。 

UnsafeShuffleWriter.scala 的 源码 如 下 。 


:i public void write(scala.collection.ITterator<Product2<K, V>> records) 
throws IOException { 


区 

3 boolean success = false; 

4. try { 

5 // 对 输入 的 记录 集 records， 循环 将 每 条 记录 插入 到 外 部 排序 器 

| 证 while (records .hasNext ()) { 

条/ insertRecordIntoSorter (records .next ()); 

8. } 

加 closeAndWriteOutput (); 

To // 生 成 最 终 的 两 个 结果 文件 ， 和 Sorted Based Shuffle 的 实现 机 制 一 样 ， 每 个 Map 
// 端 的 任务 对 应 生成 一 个 数据 (Data) 文件 和 对 应 的 索引 (Index) 文件 

和 

于 

3 success = true; 

= HFinally 

5 if (sorter != null) { 
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et 
sorter.cleanupResources (); 
} catch (Exception e) { 


写 过 程 的 关键 步骤 有 三 步 。 

(1) 通过 insertRecordIntoSorter(records.next()) 方 法 将 每 条 记录 插入 外 部 排序 器 。 

(2) closeAndWriteOutput 方法 写 数据 文件 与 索引 文件 ， 在 写 的 过 程 中 ， 会 先 合并 外 部 排 
序 器 在 插入 过 程 中 生成 的 Spill 中 间 文 件 。 

(3) sorter.cleanupResources() 最 后 释放 外 部 排序 器 的 资源 。 

首先 查看 将 每 条 记录 插入 外 部 排序 器 (Shu 角 eExtemalSorter) 时 所 使 用 的 insertRecordIntoSorter 
方法 ， 其 关键 代码 如 下 所 示 。 

UnsafeShuffleWriter scala 的 源码 如 下 。 


On 必 wwN 
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void insertRecordIntoSorter (Product2<K, V> record) throws IOException { 
assert (sorter != null); 
// 对 于 多 次 访问 的 Key 值 ， 使 用 局 部 变量 ， 可 以 避免 多 次 函数 调用 
final K key = record. 1(); 
final int partitionId = partitioner.getPartition (key); 
// 先 复位 存放 每 条 记录 的 缓冲 区 ， 内 部 使 用 BytearrayOutputStream 存放 每 条 记录 ， 容 量 
// 为 1MB 


serBuffer.reset (); 

// 进 一 步 使 用 序列 化 器 从 serBuffer 缓冲 区 构建 序列 化 输出 流 ， 将 记录 写 入 到 缓冲 区 
serOutputStream.writeKey (key, OBJECT CLASS TAG); 
serOutputStream.writeValue (record. 2(), OBJECT CLASS TAG); 
serOutputstream.flush(); 


final int serializedRecordSize = serBuffer.size(); 

assert (serializedRecordSize > 0); 
// 将 记录 插入 到 外 部 排序 器 中 ，serBuffer 是 一 个 字 节 数组 ， 内 部 数据 存放 的 偏 移 量 为 
//Platform.BYTE ARRAY OFFSET 


sorter.insertRecord!( 
serBuffer.getBuf () Platform.BYTE ARRAY OFFSET, serializedRecordSize, 
partitionId); 
} 


下 面 继续 查看 第 二 步 写 数据 文件 与 索引 文件 的 closeAndWriteOutput 方法 , 其 关键 代码 如 


下 所 示 。 


closeAndWriteOutput 的 源码 如 下 。 


> 
这 
三 
4. 


void closeAndWriteOutput() throws IOException { 

assert (sorter != null); 

updatePeakMemoryUsed (); 

// 设 为 null1， 用 于 GC 垃圾 回收 

serBuffer = null; 

serOutputstream = null; 

// 关 闭 外 部 排序 器 ， 并 获取 全 部 Spi11 信息 

final SpillInfo[] spills = sorter.closeAndGetSpills(); 
sorter = null; 

final long[] partitionLengths; 
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// 通 过 块 解析 器 获取 输出 文件 名 
final File output = shuffleBlockResolver.-getDataFile (shuffleId，mapId) 
// 在 后 续 合 并 spi11 文件 时 先 使 用 临时 文件 名 ， 最 终 再 重 命名 为 真正 的 输出 文件 名 ， 
// 即 在 writeIndexFileandCommit 方法 中 会 重复 通过 块 解析 器 获取 输出 文件 名 
final File tmp = Utils.tempFileWith (output); 
Er 
Egy 
partitionLengths = mergeSpills(spills, tmp); 
} finally { 
Eor (Spilllnto spilll: SLS HT 
if (spill.file.exists() && ! spill.file.delete()) { 
logger.error ("Error while deleting spill file {}", 
spill.file.getPath()); 
， 
} 
3 


// 将 合并 Spil1l 后 获取 的 分 区 及 其 数据 量 信息 写 入 索引 文件 ， 并 将 临时 数据 文件 重 命名 为 
// 真 正 的 数据 文件 名 


shuffleBlockResolver .writeIndexFileAndCommit (shuffleId，mapId, 
partitionLengths, tmp); 
} finally { 
if (tmp.exists() && !tmp.delete()) { 
logger .error ("Error while deleting temp file {}", tmp.getAbsolutePath()); 
} 
} 
mapStatus = MapStatus$ .MODULES$ .apply (blockManager .shuffleServerId(), 
partitionLengths); 
} 


closeAndWriteOutput 方法 主要 有 以 下 三 步 。 

(1) 触发 外 部 排序 器 ， 获 取 Spil 信息。 

(2) 合并 中 间 的 Spill 文件 ， 生 成 数据 文件 ， 并 返回 各 个 分 区 对 应 的 数据 量 信息 。 

(3) 根据 各 个 分 区 的 数据 量 信息 生成 数据 文件 对 应 的 索引 文件 。 

writeIndexFileAndCommit 方法 和 Sorted Based Shuffle 机 制 的 实现 一 样 , 在 此 仅 分 析 过 程 
中 不 同 的 Spill 文件 合并 步骤 ， 即 mergeSpills 方法 的 具体 实现 。 

UnsafeShuffleWriter.scala 的 mergeSpills 方法 的 源码 如 下 。 


:号 


/** 
* 合并 0 个 或 多 个 spi11l 的 中 间 文 件 ， 基 于 Spills 的 个 数 以 及 I/o 压缩 码 选择 最 
* 快速 的 合并 策略 。 返 回 包含 合并 文件 中 各 个 分 区 的 数据 长 度 的 数组 。 
7 


private long[] mergeSpills (SpillInfo[] spills, File outputFile) throws 
IOException { 


// 获 取 Shuffle 的 压缩 配置 信息 
final boolean  _ compressionEnabled = sparkConf.getBoolean("spark. 
shuffle .compress"，true) 
final CompressionCodec compressionCodec = CompressionCodecS$S.MODULES . 
createCodec (sparkConf); 


// 获 取 是 否 启 动 unsafe 的 快速 合并 
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final boolean fastMergeEnabled = 
sparkConf .getBoolean ("spark.shuffle.unsafe.fastMergeEnabled", true); 


// 没 有 上 压缩 或 者 当 压 缩 码 支持 序列 化 流 合 并 时 ， 支 持 快速 合并 


final boolean fastMergeIsSupported = !compressionEnabled || 
CompressionCodec$ .MODULES .supportsConcatenationOfSerializedStreams 
(compressionCodec); 


final boolean encryptionEnabled = blockManager.serializerManager() . 
encryptionEnabled(); 
Ey 


// 没 有 中 间 的 Spil1s 文件 时 ， 创 建 一 个 空 文件 ， 并 返回 包含 分 区 数据 长 度 的 
// 空 数组 。 后 续 读 取 时 会 过 滤 掉 空 文件 


if (spills.length == 0) { 

new FileOutputStream(outputFile) .close(); //Create an empty file 
return new long[partitioner.numPpartitions()]; 

else if (spills.length == 1) { 


// 最 后 一 个 Spills 文件 已 经 更 新 metrics 信息 ， 因 此 不 需要 重复 更 新 ， 直 接 
// 重 命名 Spills 的 中 间 临 时 文件 为 目标 输出 的 数据 文件 ， 同 时 将 该 Spil1s 中 间 
// 文 件 的 各 分 区 数据 长 度 的 数组 返回 即 可 
Files.move (spills[0] .file, outputFile); 
return spills[0] .partitionLengths; 

} else { 
final long[] partitionLengths; 

// 当 存在 多 个 Spil1 中 间 文 件 时 ， 根 据 不 同 的 条 件 ， 采 用 不 同 的 文件 合并 策略 


if (fastMergeEnabled && fastMergeIsSupported) { 

// 由 spark.file.transferTo 配置 属性 控制 ， 默 认为 true 

if (transferToEnabled && !encryptionEnabled) { 
logger.debug ("Using transferTo-based fast merge"); 


// 通 过 NIO 的 方式 合并 各 个 Spills 的 分 区 字 节 数据 
// 仅 在 I/O 压缩 码 和 序列 化 器 支持 序列 化 流 的 合并 时 安全 


partitionLengths =mergeSpillsWithTransferTo (spills, outputFile); 
else { 
logger.debug ("Using fileStream-based fast merge"); 
// 使 用 Java FileStreams 文件 流 的 方式 进行 合并 
partitionLengths = mergeSpillsWithFileStream(spills, outputFile, 
nullys 
. 
} else { 
logger.debug ("Using slow merge"); 
partitionLengths = mergeSpillsWithFileStream(spills, outputFile, 
compressionCodec); 
} 
// 更 新 shuffle 写 数 据 的 度量 信息 
writeMetrics.decBytesWritten(spills[spills.length - 1].file. 
length ()); 
writeMetrics.incBytesWritten (outputFile.length()); 
return partitionLengths; 
了 
} catch (IOException e) { 
if (outputFile.exists() && !outputFile.delete()) { 
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62 logger.error("Unable to delete output file {}", outputFile. 
getPath()); 

63 . } 

64. throw e; 

65 . } 

66. 


各 种 合并 策略 在 性 能 上 具有 一 定 差异 ， 会 根据 具体 的 条 件 采用 ， 主 要 有 基于 Java 
NIO(New WO) 和 基于 普通 文件 流 合 并 文件 的 方式 。 下 面 简单 描述 一 下 基于 文件 合并 流 的 处 理 
过 程 ， 代 码 如 下 所 示 : 

UnsafeShuffleWriter.scala 的 mergeSpillsWithFileStream 方法 的 源码 如 下 。 








本 /** 使 用 Java FileStreams 文件 流 的 方式 合并 */ 

2. private long[] mergeSpillsWithFilestream( 

′ SpillInfo[] spills, 

4. File outputFile, 

5 @Nullable CompressionCodec compressionCodec) throws IOException { 

65 assert (spills.length >= 2) 

VY final int numPartitions = partitioner.numPartitions(); 

Bs final long[] partitionLengths = new long[numPartitions]; 

:让 

10. // 对 应 打开 的 输入 流 的 个 数 为 spills 的 临时 文件 个 数 

1 final InputStream[] spillInputStreams = new FileInputStream 

[spills.length]; 

12s 

13. ”// 使 用 计数 输出 流 避 免 关 闭 基础 文件 并 询问 文件 系统 在 每 个 分 区 写 入 文件 大 小 

14. 

45 final CountingOutputStream mergedFileOutputStream = new 

CountingoutputStream( 

16 . new FileOutputStream(outputFile)); 

de 

18. boolean threwException = true; 

9 Ew 

ok // 为 每 个 Spills 中 间 文 件 打开 文件 输入 流 

2 for (int i = 0 < spills. lengths HP) { 

2 spillInputStreams[i] = new FileInputStream(spills[i].file); 

六 二 } 

248 // 遍 历 分 区 

2 for (int partition = 0; partition < numPartitions; Partition++) { 

208 final long initialFileLength =mergedFileOutputStream.getByteCount (); 

2 // 屏 蔽 底层 输出 流 的 close () 调用 ， 以 便 能 够 关闭 高 层 流 ， 以 确保 所 有 数据 都 真正 刷 
// 新 并 清除 内 部 状态 

28- 

2 OutputStream partitionOutput = new CloseShieldOoutputstream( 

30> new TimeTrackingOutputStream(writeMetrics, mergedFileOutputStream)); 

3 partitionOutput = blockManager .serializerManager () .wrapForEncryption 
(partitionOutput); 

对 2 if (compressionCodec != null) { 

站 二 partitionOutput = compressionCodec.compressedOutputStream 

(partitionOutput); 

34. } 

上 

Sa // 依 次 从 各 个 spills 输入 流 中 读 取 当 前 分 区 的 数据 长 度 指定 个 数 的 字 节 ， 到 各 个 分 
// 区 对 应 的 输出 文件 流 中 

ST Eor (int 1 = "0 < spillselengths Ly 3 

38- final long partitionLengthInSpill = spills[i]l.partitionLengths 


[partition]; 


“ee 


第 7 章 Shuffle 原理 和 源码 详解 








吕 
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39. if (partitionLengthInSpill > 0) { 
40 . InputStream PartitionInputStream = new LimitedInputStream 
(spillInputStreams [i]， 

41. partitionLengthInSpill, false); 

Cp Ery 

43. PartitionInputStream = blockManager.serializerManager () 
.wrapForEncryption( 

44. partitionInputStream); 

二 与 二 if (compressionCodec != null) { 

46. partitionInputStream = compressionCodec.compressedInputStream 

(partitionInputStream); 

47. } 

48. ByteStreams.copy (partitionInputStream, partitionOutput); 

49. } finally { 

50. partitionInputSstream.close(); 

5 } 

S52 } 

53- 于 

5 partitionOutput.flush(); 

55s partitionOutput.close(); 

56. // 将 当前 写 入 的 数据 长 度 存 入 返回 的 数组 中 

5 partitionLengths [partition] = (mergedFileOutputStream 

.getByteCount () - initialFileLength); 

58. } 

S93 threwException = false; 

60 . } finally { 

6 // 为 了 避免 屏蔽 异常 以 后 导致 过 早 进入 finally 块 的 异常 处 理 ， 只 能 在 清理 过 程 中 抛 出 

// 异 常 

62 . 

[并 轩 for (InputStream stream : spil1InputStreams) { 

64. Closeables.close (stream, threwException); 

65.. } 

66. Closeables.close (mergedFileOutputStream, threwException); 

67: 

68 . return partitionLengths; 

十 


基于 NIO 的 文件 合并 流程 基本 类 似 ， 只 是 底层 采用 NIO 的 技术 实现 。 
7.6 ”Shuffle 与 Storage 模块 间 的 交互 


在 Spark 中 , 存储 模块 被 抽象 成 Storage。 顾名思义 ,Storage 是 存储 的 意思 , 代表 着 Spark 
的 数据 存储 系统 ， 负 责 管 理 和 实现 数据 块 (Block) 的 存放 。 其 中 存 取 数 据 的 最 小 单元 是 


Block， 数 据 由 不 同 的 Block 组 成 ， 所 有 操作 都 是 以 Block 为 单位 进行 的 。 从 本 质 上 讲 ，RDD 





P 的 Partition 和 Storage 中 的 Block 是 等 价 的 , 只 是 所 处 的 模块 不 同 , 看 待 的 角度 不 一 样 而 已 。 
Storage 抽象 模块 的 实现 分 为 两 个 层次 ， 如 图 7-13 所 示 。 
(1) 通信 层 : 通信 层 是 典型 的 MasterSlave 结构 ，Master 和 Slave 之 间 传 输 控制 和 状态 











信息 。 通 信和 层 主要 BlockManager、BlockManagerMaster、BlockManagerMasterEndpoint、 
BlockManagerSlaveEndpoint 等 类 实现 。 











(2) 存储 层 : 负责 把 数据 存储 到 内 存 、 磁 盘 或 者 堆 外 内 存 中 ， 有 时 还 需要 为 数据 在 远程 


节点 上 生成 副本 ， 这 些 都 由 存储 层 提供 的 接口 实现 。Spark 2.2.0 具体 的 存储 层 的 实现 类 有 





Ma 


上 篇 ”内 核 解密 








DiskStore 和 MemoryStore。 
Storage 存 储 模块 


DiskStore 
存储 层 


MemoryStore 


BlockManagerMasterEndpoint BlockManagerSlaveEndpoint 
BlockManager Master 


BlockManager 


图 7-13 Storage 存储 模块 


Shuffle 模块 若 要 和 Storage 模块 进行 交互 ,需要 通过 调用 统一 的 操作 类 BlockManager 来 
完成 。 如 果 把 整个 存储 模块 看 成 一 个 黑 盒 ，BlockManager 就 是 黑 盒 上 留 出 的 一 个 供 外 部 调用 
的 接口 。 


7.6.1 _ Shuffle 注册 的 交互 
Spark 中 BlockManager 在 Driver 端的 创建 , 在 SparkContext 创建 的 时 候 会 根据 具体 的 配 


置 创 建 SparkEnv 对 象 ， 源 码 如 下 所 示 。 
SparkContext.scala 的 源码 如 下 。 


:| env = createSparkEnv( conf, isLocal, listenerBus) 

SparkEnv.set( env) 

i 

4. private[spark] def createSparkEnv( 

Si conf: SparkConf, 

大 isLocal: Boolean, 

入 让 listenerBus: LiveListenerBus) : SparkEnv = { 

8. // 创 建 Driver 端的 运行 环境 

I SparkEnv.createDriverEnv (conf, isLocal, listenerBus, SparkContext 
.numDriverCores (master)) 

10. . 


createSparkEnv 方法 中 ， 传 入 SparkConf 配置 对 象 、isLocal 标志 ， 以 及 LiveListenerBus， 
方法 中 使 用 SparkEnv 对 象 的 createDriverEnv 方法 创建 SparkEnv 并 返回 。 在 SparkEnv 的 
createDriverEvn 方法 中 ， 将 会 创建 BlockManager、BlockManagerMaster 等 对 象 ， 完 成 Storage 
在 Driver 端的 部 署 。 

SparkEnv 中 创建 BlockManager、BlockManagerMaster 关键 源码 如 下 所 示 。 

SparkEnv.scala 的 源码 如 下 。 
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| 


val blockTransferService = 
new NettyBlockTransferService(conf, securityManager, bindAddress, 
advertiseAddress, blockManagerPort, numUsableCores) 


DL 


号 
4. // 创 建 BlockManagerMasterEndpoint 

i val blockManagerMaster = new BlockManagerMaster (registerOrLookupEndpoint ( 
6 BlockManagerMaster .DRIVER ENDPOINT NAME, 

7 // 创 建 BlockManagerMasterEndpoint 

再 new BlockManagerMasterEndpoint (rpcEnv, isLocal, conf, listenerBus)), 
也 conf, isDriver) 

10. // 创 建 BlockManager 

5 // 注 : blockManager 无 效 ， 直 到 initialize() 被 调用 


2 val blockManager = new BlockManager (executorId, rpcEny, 
blockManagerMaster, 
13s serializerManager, conf, memoryManager, mapOutputTracker, 
shuffleManager, 
14. blockTransferService, securityManager, numUsableCores) 


使 用 new 关键 字 实例 化 出 BlockManagerMaster， 传 入 BlockManager 的 构造 函数 ， 实 例 
化 出 BlockManager 对 象 。 这 里 的 BlockManagerMaster 和 BlockManager 属于 聚合 关系 。 
BlockManager 主要 对 外 提供 统一 的 访问 接口 ，BlockManagerMaster 主要 对 内 提供 各 节点 之 间 
的 指令 通信 服务 。 

构建 BlockManager 时 ， 传 入 shuffleManager 参数 ，shuffleManager 是 在 SparkEnv 中 创建 
的 , 将 shuffleManager 传 入 到 BlockManager 中 ，BlockManager 就 拥有 shuffleManager 的 成 员 
变量 ， 从 而 可 以 调用 shuffleManager 的 相关 方法 。 

BlockManagerMaster 在 Driver 端 和 Executors 中 的 创建 稍 有 差别 。 首 先 来 看 在 Driver 端 
创建 的 情形 。 创 建 BlockManagerMaster 传 入 的 isDriver 参数 ，isDriver 为 tue， 表 
端 创建 ， 否 则 视 为 在 Slave 节点 上 创建 。 

当 SparkContext 中 执行 envblockManagerinitialize(_applicationId) 代 码 时 ， 会 调用 Driver 
端 BlockManager 的 initialize 方法 。Initialize 方法 的 源码 如 下 所 示 。 

SparkContext.scala 的 源码 如 下 。 





示 在 Driver 


Be _env.blockManager.initialize( applicationId) 


Spark 2.1.1 版 本 的 BlockManager.scala 的 源码 如 下 。 


2 def initialize(appId: String): Unit = { 
2.  // 调 用 blockTransferService 的 init 方法 , blockTransferService 用 于 在 不 同 节点 
//fetch 数据 、 传 送 数 据 


s 人 blockTransferService.init (this) 

4.  //shuffleClient 用 于 读 取 其 他 Executor 上 的 shuffle files 
本 有 shuffleClient.init (appId) 

GE 


上 blockReplicationPolicy = { 

8. val priorityClass = conf.get( 

9 "spark.storage.replication.policy", classOof 
[RandomBlockReplicationPolicy] .getName) 


De Val clazz = Utils.classForName (priorityClass) 

Eh val ret = clazz.newInstance.asInstanceOf [BlockReplicationPolicy] 
2 logInfo(s"Using $priorityClass for block replication policy") 
3% ret 

14. ; 

Ms 
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16. val id = 
he BlockManagerId (executorId, blockTransferService.hostName, 
blockTransferService.port, None) 


19. // 向 blockManagerMaster 注册 BlockManager。 在 registerBlockManager 方法 中 传 
// 入 了 slaveEndpoint，slaveEndpoint 为 BlockManager 中 的 RPC 对 象 ， 用 于 和 
//blockManagerMaster 通信 


2 val idFromMaster = master.registerBlockManager( 

“时 id, 

225 maxMemory, 

3 slaveEndpoint) 

24.  // 得 到 blockManagerId 

Di blockManagerId = if (idFromMaster != null) idFromMaster else id 

26。 

27. // 得 到 shuffleServerId 

28 . shuffleServerId = if (externalShuffleServiceEnabled) { 

29. logInfo(s"external shuffle service port = $externalShuffleServicePort") 

30E BlockManagerId (executorId, blockTransferService.hostName, 
externalShuffleServicePort) 

i } else { 

32< blockManagerId 

332 } 


34. // 注 册 shuffleServer 
35. // 如 果 存在 ， 将 注册 Executors 配置 与 本 地 shuffle 服务 


S62 if (externalShuffleServiceEnabled && !blockManagerId.isDriver) { 
ST registerWithExternalShuffleServer () 

二 } 

3 

40. logInfo(s"Initialized BlockManager: $blockManagerId") 

41. 


Spark 2.2.0 版 本 的 BlockManager.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 
口 上 段 代码 中 第 22 行 删除 maxMemory。 

口 上 段 代 码 中 第 22 行 之 后 新 增 参 数 maxOnHeapMemory: 最 大 的 堆 内 存 大 小 。 

口 上 段 代 码 中 第 22 行 之 后 新 增 参 数 maxOffHeapMemory: 最 大 的 堆 外 存 大 小 。 


maxOnHeapMemory, 
maxOffHeapMemory, 


ODP 


如 上 面 的 源码 所 示 ，initialize 方法 使 用 appId 初始 化 BlockManager， 主 要 完成 以 下 工作 。 

(1) 初始 化 BlockTransferService。 

(2) 初始 化 ShuffleClient。 

(3) 创建 BlockManagerld。 

(4) 将 BlockManager 注册 到 BlockManagerMaster 上 。 

(5) 若 ShuffleService 可 用 ， 则 注册 ShuffleService。 

在 BlockManager 的 initialize 方法 上 右 击 Find Usages， 可 以 看 到 initialize 方法 在 两 个 地 
方 得 到 调用 : 一 个 是 SparkContext; 另 一 个 是 Executor。 启动 Executor 时 , 会 调用 BlockManager 
的 initialize 方法 。Executor 中 调用 initialize 方法 的 源码 如 下 所 示 。 

Executor scala 的 源码 如 下 。 


1 //CoarseGrainedExecutorBackend 中 实例 化 Executor，isLocal 设置 成 false， 即 
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//Executor 中 isLocal 始终 为 false 


2 

Ei if (!isLocal) { 

4. // 向 度量 系统 注册 

Se //env.metricsSystem.registerSource (executorSource) 

6 // 调 用 BlockManager 的 initialize 方 法 ,initialize 方 法 将 向 BlockManagerMaster 
// 注 册 ， 完 成 Executor 中 的 BlockManager 向 Driver 中 的 BlockManager 注册 

Ms env.blockManager .initialize (conf .getAppId) 

85 } 


上 面 代码 中 调用 了 env.blockManager.initialize 方法 ,在 initialize 方 法 中 ,完成 BlockManger 
问 Master 端 BlockManagerMaster 的 注册 。 使 用 方法 masterregisterBlockManager 
(id,maxMemory,slaveEndpoint) 完 成 注册 ，registerBlockManager 方法 中 传 入 Id、maxMemory、 
salveEndPoint 引用 ， 分 别 表示 Executor 中 的 BlockManager、 最 大 内 存 、BlockManager 中 的 
BlockMangarSlaveEndpoint。BlockManagerSlaveEndpoint 是 一 个 RPC 端点 ， 使 用 它 完成 同 
BlockManagerMaster 的 通信 。BlockManager 收 到 注册 请 求 后 将 Executor 中 注册 的 
BlockManagerInfo 存 入 哈 希 表 中 , 以 便 通过 BlockManagerSlaveEndpoint 向 Executor 发 送 控制 
命令 。 

ShuffleManager 是 一 个 用 于 shuffle 系统 的 可 插 拔 接口 。 在 Driver 端 SparkEnv 中 创建 
ShuffleManager， 在 每 个 Executor 上 也 会 创建 。 基 于 spark.shuffle.manager 进行 设置 。Driver 
使 用 ShuffleManager 注册 到 shuffles 系统 ，Executors (或 Driver 在 本 地 运行 的 任务 ) 可 以 请 
求 读 取 和 写 入 数据 。 这 将 被 SparkEnv 的 SparkConf 和 isDriver 布尔 值 作为 参数 。 

ShuffleManager.scala 的 源码 如 下 。 

Private[spark] trait ShuffleManager { 


/** 
* 注 册 一 个 shuffle 管理 器 ， 获 取 一 个 句柄 传递 给 任务 
二 
def registerShuffle[K, V, C]( 
shuffleId: Int, 
numMaps: Int, 
dependency: ShuffleDependency[K, V, C]): ShuffleHandle 


加 ov~awm 必 wm 


11. /** 为 给 定 分 区 获取 一 个 写 入 器 。Executors 节点 通过 Map 任务 调用 */ 
2 def getWriter[K, V] (handle: ShuffleHandle, mapId: Int, context: 
TaskContext): ShuffleWriter[K, V] 


3 

4. Ve 
* 获 取 读 取 器 汇聚 一 定 范围 的 分 区 (从 startPartition 到 endPartition-1) 。 在 
*Executors 节点 ， 通 过 reduce 任务 调用 

LS: */ 

LG: 

a 用 壤 def getReader[K, C]( 

LA handle: ShuffleHandle, 

395 startPartition: Int， 

De endPartition: Int, 

ph NE context: TaskContext): ShuffleReader[K, C] 

225 

2 /站 站 

24. * 从 ShuffleManager 移 除 一 个 shuffle 的 元 数据 


es 
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人 5 * @return 如 果 元 数据 成 功 删除 ， 则 返回 true， 否 则 返回 false 


“4 */ 
Say def unregisterShuffle (shuffleId: Int): Boolean 
28 . 
Oe 

* 返回 一 个 能 够 根据 块 坐标 来 检索 shuffle 块 数据 的 解析 器 
30.。 wad 
2h def shuffleBlockResolver: ShuffleBlockResolver 
世人 


33. /** 关闭 ShuffleManager */ 

34. def stop(): Unit 

Sn} 

Spark Shuffle Pluggable 框架 ShuffleBlockManager 在 Spark 1.6.0 之 后 改 成 了 
ShuffleBlockResolver 。 ShuffleBlockResolver 具体 读 取 shuffle 数据 ， 是 一 个 trait 。 在 
ShuffleBlockResolver 中 已 无 getBytes 方法 。getBlockData (blockId: ShuffleBlockId) 方法 返回 
的 是 ManagedBuffer， 这 是 核心 。 

ShuffleBlockResolver 的 源码 如 下 。 


trait ShuffleBlockResolver { 
type ShuffleId = Int 


PODP 


/** 


*# 为 指定 的 块 检索 数据 。 如 果 块 数据 不 可 用 ， 则 抛 出 一 个 未 指明 的 异常 
本 
def getBlockData (blockId: ShuffleBlockId) : ManagedBuffer 


def stop () : Unit 

1 

Spark 2.0 版 本 中 通过 IndexShuffleBlockResolver 来 具体 实现 ShuffleBlockResolver 
(SortBasedShuffle 方式 )， 已 无 FileShuffleBlockManager (Hashshuffle 方式 )。IndexShuffle- 
BlockResolver 创建 和 维护 逻辑 块 和 物理 文件 位 置 之 间 的 shuffle blocks 映射 关系 。 来自 于 相同 
map task 任务 的 shuffle blocks 数据 存储 在 单个 合并 数据 文件 中 ; 数据 文件 中 的 数据 块 的 偏 移 
量 存储 在 单独 的 索引 文件 中 。 将 shuffleBlockId + reduce ID set to 0 + "后缀 "作为 数据 shuffle 
data 的 shuffleBlockId 名 字 。 其 中 ,文件 名 后 级 为 ".data" 的 是 数据 文件 ; 文件 名 后 缀 为 "index" 
的 是 索引 文件 。 


oo ~a wu 


7.6.2 Shuffle 写 数 据 的 交互 


基于 Sort 的 Shuffle 实现 的 ShuffleHandle 包含 BypassMergeSortShuffleHandle 与 
BaseShuffleHandle 。 两 种 ShuffleHandle 写 数据 的 方法 可 以 参考 SortShuffleManager 类 的 
getWriter 方法 ， 关 键 代码 如 下 所 示 。 

SortShuffleManager 的 getWriter 的 源码 如 下 。 


: override def getWriter[K, V]( 

2 

case bypassMergeSortHandle: BypassMergeSortShuffleHandle [K 
Qunchecked，V Gunchecked] => 

4. new BypassMergeSortShuffleWriter( 


:314: 
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env.blockManager, 
shuffleBlockResolver.asInstanceOf[IndexShuffleBlockResolver], 
case other: BaseShuffleHandle[K @unchecked, V @unchecked, ] => 
new SortShuffleWriter (shuffleBlockResolver, other, mapId, context) 
1 


PpwoJau 


上 1 避 
下 

在 对 应 构建 的 两 种 数据 写 入 器 类 BypassMergeSortShuffleWriter 与 SortShuffleWriter 中 ， 
都 是 通过 变量 shuffleBlockResolver 对 逻辑 数据 块 与 物理 数据 块 的 映射 进行 解析 。 
BypassMergeSortShuffleWriter 写 数 据 的 具体 实现 位 于 实现 的 write 方法 中 ， 其 中 调用 的 
createTempShuffleBlock 方 法 描述 了 各 个 分 区 所 生成 的 中 间 临 时 文件 的 格式 与 对 应 的 BlockId。 
SortShuffleWriter 写 数据 的 具体 实现 位 于 实现 的 write 方法 中 。 


7.6.3 Shuffle 读数 据 的 交互 


SparkEnv.get.shuffleManager.getReader 是 SortShuffleManager 的 getReader， 是 获取 数据 
的 阅读 器 ，getReader 方法 中 创建 了 一 个 BlockStoreShuffleReader 实例 。SortShuffleManager. 
scala 的 read() 方 法 的 源码 如 下 。 


override def getReader[K, C]( 
handle: ShuffleHandle, 
startPartition: Int, 
endPartition: Int, 
context: TaskContext): ShuffleReader[K, C] = { 

new BlockStoreShuffleReader!( 

handle.asInstanceOf [BaseShuffleHandle[K, ”Gl starthartition, 
endPartition, context) 


~Iawm 心 wm 


[后 


BlockStoreShuffleReader 实例 的 read 方法 ， 首 先 实例 化 new ShuffleBlockFetcherIterator。 
ShuffleBlockFetcherIterator 是 一 个 阅读 器 ， 里 面 有 一 个 成 员 blockManager。blockManager 是 
内 存 和 磁盘 上 数据 读 写 的 统一 管理 器 ，ShuffleBlockFetcherlterator.scala 的 initialize 方法 中 
splitLocalRemoteBlocks() 划 分 本 地 和 远程 的 blocks，Utils.randomize(remoteRequests) 把 远程 请 
求 通 过 随机 的 方式 添加 到 队列 中 ，fetchUpToMaxBytes() 发 送 远程 请 求 获取 我 们 的 blocks， 
fetchLocalBlocks() 获 取 本 地 的 blocks。 


7.6.4 ”BlockManager 架构 原理 、 运 行 流程 图 和 源码 解密 


BlockManager 是 管理 整个 Spark 运行 时 数据 的 读 写 ， 包 含 数据 存储 本 身 ， 在 数据 存储 的 
基础 上 进行 数据 读 写 。 由 于 Spark 是 分 布 式 的 ， 所 以 BlockManager 也 是 分 布 式 的 ， 
Ra 本 身 相 对 而 言 是 一 个 比较 大 的 模块 ，Spark 中 有 非常 多 的 模块 : 调度 模块 、 资 

管理 模块 等 。BlockManager 是 另外 一 个 非常 重要 的 模块 。BlockManager 本 身 的 源码 量 非常 
、 本 节 从 BlockManager 原理 流程 对 BlockManager 做 深刻 地 讲解 。 在 Shuffle 读 写 数据 的 时 
候 ， 我 们 需要 读 写 BlockManager。 因 此 ，BlockManager 是 至 关 重 要 的 内 容 。 

编写 一 个 业务 代码 WordCount.scala， 通 过 观察 WordCount 运行 时 BlockManager 的 日 志 
来 理解 BlockManager 的 运行 。 














a 
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WordCount scala 的 代码 如 下 。 


闷 汪 和 放 


package com.dt.spark.sparksql 


import org.apache.1o0g4j.{Level, Logger} 
import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 
import org.apache.spark.internal.config 
import org.apache.spark.rdd.RDD 


/** 


* 使 用 Scala 开发 本 地 测试 的 Spark Wordcount 程序 


* Qauthor DT 大 数据 梦 工 厂 
a 新 浪 微 博 : http://weibo.com/ilovepains/ 
四 


. Object WordCount { 


def main (args: Array[String]) { 
Logger .getLogger ("org") .setLevel (Level .ALL) 


/** 
* 第 1 步 : 创建 Spark 的 配置 对 象 SparkConf， 设 置 Spark 程序 的 运行 时 的 配置 信息 ， 
* 例 如 ， 通 过 setMaster 设置 程序 要 链接 的 Spark 集群 的 Master 的 URL， 如 果 设 置 
* 为 local， 则 代表 Spark 程序 在 本 地 运行 ， 特 别 适合 于 机 器 配置 条 件 非常 差 ( 如 只 有 
*1GB 的 内 存 ) 的 初学 者 > 
*/ 
val conf = new SparkConf() // 创 建 SparkConf 对 象 
conf.setAppName ("Wow,MY First Spark App!") // 设 置 应 用 程序 的 名 称 ， 在 程序 
// 运 行 的 监控 界面 可 以 看 到 名 称 
Saas .setMaster ("local") // 此 时 ， 程序 在 本 地 运行 ， 不 需要 安装 Spark 集群 
炒米 
* 第 2 步 : 创建 SparkContext 对 象 
SparkContext 是 Spark 程序 所 有 功能 的 唯一 入 口 ， 采 用 Scala、Java、Python、 
R 等 都 必须 有 一 个 SparkContext 
SparkContext 核心 作用 : 初始 化 spark 应 用 程序 运行 所 需要 的 核心 组 件 ， 包 括 
DAGScheduler、 TaskScheduler、 SchedulerBackend 
* 同时 还 会 负责 Spark 程序 往 Master 注册 程序 等 
* SparkContext 是 整个 Spark 应 用 程序 中 最 重要 的 一 个 对 象 
*/ 
val sc = new SparkContext (conf) 
// 创 建 SparkContext 对 象 ， 通 过 传 入 SparkConf 
// 实 例 来 定制 Spark 运行 的 具体 参数 和 配置 信息 


六 关 其 芝 


/** 
* 第 3 步 : 根据 具体 的 数据 来 源 (如 HDFS、HBase、Local FS、DB、S3 等 ) 通过 
* SparkContext 创建 RDD 
* RDD 的 创建 基本 有 三 种 方式 : 根据 外 部 的 数据 来 源 (如 HDFS) 、 根 据 Scala 集合 、 
* 其 他 的 RDD 操作 
* 数据 会 被 RDD 划分 为 一 系列 的 Partitions， 分 配 到 每 个 Partition 的 数据 属于 一 
* 个 Task 的 处 理 范畴 
Wd 
//val lines: RDD[String] = sc.textFile("D://Big Data Software spark-— 


1.6.0-bin-hadoop2.6README .md"，1) // 读 取 本 地 文件 并 设置 为 一 个 Partition 
oval lines = sc textEile(sD//Big Data Software spark I"605bins 
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hadoop2 .6//README .md"，1) // 读 取 本 地 文件 并 设置 为 一 个 Partition 


val lines = sc.textFile("data/wordcount/helloSpark.txt", 1) 
// 读 取 本 地 文件 并 设置 为 一 个 Partition 
/** 
* 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 
* 第 4.1 步 : 将 每 一 行 的 字符 串 拆 分 成 单个 单词 
*/ 


val words = lines.flatMap { line => line.split(" ") } 


// 对 每 一 行 的 字符 串 进行 单词 拆 分 并 把 所 有 行 的 拆 分 结果 通过 flat 合并 成 为 一 个 大 的 单词 集合 


/** 
* 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 
* 第 4.2 步 : 在 单词 拆 分 的 基础 上 ， 对 每 个 单词 实例 计数 为 1， 也 就 是 word => (word，1) 
二 


val pairs = words.map { word => (word, 1) } 


/** 

* 第 4 步 : 对 初始 的 RDD 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 

* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 

* 第 4.3 步 : 在 每 个 单词 实例 计数 为 1 基础 上 ， 统 计 每 个 单词 在 文件 中 出 现 的 总 次 数 

*/ 
val wordCountsOdered = pairs.reduceByKey( + ).mapl(pair => (pair. 2, 
pair. 1)).sortByKey (false) .map (pair => (pair. 2, pair. 1)) 
// 对 相同 的 Key， 进 行 Value 的 累计 (包括 Local 和 Reducer 级 别 同时 Reduce) 
wordCountsOdered.collect .foreach (wordNumberPair => println 
(wordNumberPair. 1 + " : "+ wordNumberPair. 2)) 
while (true) { 


} 
sc.stop() 


} 


5 


在 IDEA 中 运行 一 个 业务 程序 WordCount.scala， 日 志 中 显示 : 


口 SparkEnv: Registering MapOutputTracker， 其 中 MapOutputTracker 中 数据 的 读 写 都 和 
BlockManager 关联 。 

口 SparkEnv: Registering BlockManagerMaste， 其 中 Registering BlockManagerMaster 由 
BlockManagerMaster 进行 注册 。 

口 DiskBlockManager: Created local directory C:\Users\dell\AppData\Local\Temp\blockmegr-... 
其 中 DiskBlockManager 是 管理 磁盘 存储 的 ， 里 面 有 我 们 的 数据 。 可 以 访问 Temp 目 
录 下 以 blockmgr- 开 头 的 文件 的 内 容 。 

WordCount 运行 结果 如 下 。 
1. Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults . 
Properties 
2. 17/06/06 05:37:57 INFO SparkContext: Running Spark version 2.1.0 
x 


= 
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4. 17/06/06 05:38:01 INFO SparkEnv: Registering MapOutputTracker 

5. 17/06/06 05:38:01 DEBUG MapOutputTrackerMasterEndpoint: init 

6. 17/06/06 05:38:01 INFO SparkEnv: Registering BlockManagerMaster 

7. 17/06/06 05:38:01 INFO BlockManagerMasterEndpoint: Using org.apache 
.Spark.storage.DefaultTopologyMapper for getting topology information 

8. 17/06/06 05:38:01 INFO BlockManagerMasterEndpoint: 
BlockManagerMasterEndpoint up 

9. 17/06/06 05:38:01 INFO DiskBlockManager: Created local directory at 
C:\Users\dell\AppData\Local\Temp\blockmgr-a58a44dd-484b-4871-a92a-828 
872c98804 

10. 17/06/06 05:38:01 DEBUG DiskBlockManager: Adding shutdown hook 

11. 17/06/06 05:38:01 DEBUG ShutdownHookManager: Adding shutdown hook 

12. 17/06/06 05:38:01 INFO MemoryStore: MemoryStore started with capacity 
637.2 MB 

13. 17/06/06 05:38:02 INFO SparkEnv: Registering OutputCommitCoordinator 

14. 17/06/06 05:38:02 DEBUG OutputCommitCoordinator$OutputCommitCoordinator-— 
Endpoint: init 


从 Application 启动 的 角度 观察 BlockManager: 
(1)Application 启动 时 会 在 SparkEnv 中 注册 BlockManagerMaster 以 及 MapOutputTracker， 
其 中 ， 
a) BlockManagerMaster: 对 整个 集群 的 Block 数据 进行 管理 。 
b) MapOutputTrackerMaster: 跟踪 所 有 的 Mapper 的 输出 。 
BlockManagerMaster 中 有 一 个 引用 driverEndpoint，isDriver 判断 是 否 运行 在 Driver 上 。 
BlockManagerMaster 的 源码 如 下 。 
private[spark] 
class BlockManagerMaster( 
var driverEndpoint: RpcEndpointRef, 
conf: SparkConf, 


isDriver: Boolean) 
extends Logging { 


aMnAODP 


BlockManagerMaster 注册 给 SparkEnv，SparkEnv 在 SparkContext 中 。 
SparkContext.scala 的 源码 如 下 。 


i 

2 private var env: SparkEnv = 

Si 

出 志 env = createSparkEnv( conf, isLocal, listenerBus) 

Se SparkEnv.set (_env) 

进入 createSparkEnv 方法 : 

i private[spark] def createSparkEnv( 

这 这 conf: SparkConf, 

3 isLocal: Boolean, 

风 反 listenerBus: LiveListenerBus): SparkEnv = { 

| SparkEnv.createDriverEnv (conf, isLocal, listenerBus, SparkContext. 
numDriverCores (master)) 

6. } 


进入 SparkEnv.scala 的 createDriverEnrv 方法 : 


Ms private[spark] def createDriverEnv( 


= 
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二 createl( 

和 = conf, 

i SparkContext .DRIVER IDENTIFIER, 
6 bindAddress, 

he advertiseAddress, 

二 port, 

9. isLocal, 

10. numCores, 

Ti ioEncryptionKey, 

人 listenerBus = listenerBus, 

13. mockOutputCommitCoordinator = mockOutputCommitCoordinator 
Ta ) 

Te} 

VO Hosa 


SparkEnv.scala 的 createDriverEnv 中 调用 了 create 方法 ， 判 断 是 否 是 Driver。create 方法 
的 源码 如 下 。 


全 private def create( 

EE conf: SparkConf, 

< executorId: String, 

4. bindAddress: String, 

Ss advertiseAddress: String, 

Bs peorts Tnty 

7 isLocal: Boolean, 

二 numUsableCores: Int, 

9. ioEncryptionKey: Option[Rrray[Byte]]， 

TO listenerBus: LiveListenerBus = null, 

is mockOutputCommitCoordinator: Option[OutputCommitCoordinator] = 
None): SparkEnv = { 

2 

3 val isDriver = executorId == SparkContext.DRIVER IDENTIFIER 

有 

ED if (isDriver) { 

16: conf.set ("spark.driver.port", rpcEnv.address.port.toString) 

区 全 } else if (rpcEnv.address != null) { 

BS conf.set ("spark.executor.port", rpcEnv.address.port.tostring) 

39< logInfo(s"Setting spark.executor.port to: ${rpcEnv.address.port 
.tostring}") 

20. } 

4 

2 val mapOutputTracker = if (isDriver) { 

3 new MapOutputTrackerMaster (conf, broadcastManager, isLocal) 

2 } else { 

new MapOutputTrackerWorker (conf) 

26. } 

TT 


28. SparkContext.scala 

29. private[spark] val DRIVER IDENTIFIER = "driver" 

SO 

在 SparkEnv.scala 的 createDriverEnv 中 调用 new0 函 数 创建 一 个 MapOutputTrackerMaster。 
MapOutputTrackerMaster 的 源码 如 下 。 


[a private[spark] class MapOutputTrackerMaster (conf: SparkConf, 


2 broadcastManager: BroadcastManager, isLocal: Boolean) 
< 局 extends MapOutputTracker (conf) { 
ee 


人 
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然后 看 一 下 blockManagerMaster 。 在 SparkEnv.scala 中 调用 new0 函数 创建 一 个 
blockManagerMaster。 


ds val blockManagerMaster = new BlockManagerMaster 
(registerOrLookupEndpoint( 

2 BlockManagerMaster .DRIVER ENDPOINT NAME, 

:二 new BlockManagerMasterEndpoint (rpcEnv, isLocal, conf, listenerBus)), 

4 conf, isDriver) 


BlockManagerMaster 对 整个 集群 的 Block 数据 进行 管理 ，Block 是 Spark 数据 管理 的 单 
位 , 与 数据 存储 没有 关系 , 数据 可 能 存在 磁盘 上 , 也 可 能 存储 在 内 存 中 , 还 可 能 存储 在 offline， 
如 Alluxio 上 。 源 码 如 下 。 


1. private[spark] 
2. class BlockManagerMaster( 


二 var driverEndpoint: RpcEndpointRef, 
和 conf: SparkConf, 

人 isDriver: Boolean) 

63 extends Logging { 

ST 


构建 BlockManagerMaster 的 时 候 调用 new0 函 数 创建 一 个 BlockManagerMasterEndpoint， 
这 是 循环 消息 体 。 


private[spark] 
class BlockManagerMasterEndpoint( 
override val rpcEnv: RpcEnyv, 
val isLocal: Boolean, 
conf: SparkConf, 
listenerBus: LiveListenerBus) 
extends ThreadSafeRpcEndpoint with Logging { 


~Owm 心 wN 


(2) BlockManagerMasterEndpoint 本 身 是 一 个 消息 体 ， 会 负责 通过 远程 消息 通信 的 方式 
去 管理 所 有 节点 的 BlockManager。 

查看 WordCount 在 IDEA 中 的 运行 日 志 ， 日 志 中 显示 BlockManagerMasterEndpoint: 
Registering block manager， 问 block manager 进行 注册 。 


: 

2 17/06/06 05:38:02 INFO BlockManager: Using org.apache.spark.storage. 
RandomBlockReplicationPolicy for block replication policy 

3. 17/06/06 05:38:02 INFO BlockManagerMaster: Registering BlockManager 
BlockManagerId (driver, 192.168.93.1, 63572, None) 

4. 17/06/06 05:38:02 DEBUG DefaultTopologyMapper: Got a request for 192.168. 
3935 

5. 17/06/06 05:38:02 INFO BlockManagerMasterEndpoint: Registering block 
manager 192.168.93.1:63572 with 637.2 MB RAM, BlockManagerId (driver, 
192.168.93.1, 63572, None) 

6. 17/06/06 05:38:02 INFO BlockManagerMaster: Registered BlockManager 
BlockManagerId (driver, 192.168.93.1, 63572, None) 

7. 17/06/06 05:38:02 INFO BlockManager: Initialized BlockManager: 
BlockManagerId (driver, 192.168.93.1, 63572, None) 


(3) 每 启动 一 个 ExecutorBackend， 都 会 实例 化 BlockManager， 并 通过 远程 通信 的 方式 
注册 给 BlockManagerMaster; 实质 上 是 Executor 中 的 BlockManager 在 启动 的 时 候 注册 给 了 


-33s 
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Driver 上 的 BlockManagerMasterEndpoint。 

(4) MemoryStore 是 BlockManager 中 专门 负责 内 存 数据 存储 和 读 写 的 类 。 

查看 WordCount 在 IDEA 中 的 运行 日 志 ， 日 志 中 显示 MemoryStore: Block broadcast 0 
stored as values in memory， 数 据 存储 在 内 存 中 。 


2. 17/06/06 05:38:04 INFO MemoryStore: Block broadcast 0 stored as values 
in memory (estimated size 208.5 KB, free 637.0 MB) 

3. 17/06/06 05:38:04 INFO MemoryStore: Block broadcast 0 piece0 stored as 
bytes in memory (estimated size 20.0 KB, free 637.0 MB) 

4. 17/06/06 05:38:04 INFO BlockManagerInfo: Added broadcast 0 piece0 in 
memory on 192.168.93.1:63572 (size: 20.0 KB, free: 637.2 MB) 


Spark 读 写 数 据 是 以 block 为 单位 的 ，MemoryStore 将 block 数据 存储 在 内 存 中 。 
MemoryStore.scala 的 源码 如 下 。 


private[spark] class MemoryStore( 
conf: SparkConf, 
blockInfoManager: BlockInfoManager, 
serializerManager: SerializerManager, 
memoryManager: MemoryManager, 
blockEvictionHandler: BlockEvictionHandler) 
extends Logging { 


OAAMAONP 


(5) DiskStore 是 BlockManager 中 专门 负责 基于 磁盘 的 数据 存储 和 读 写 的 类 。 
Spark 2.1.1 版 本 的 DiskStore.scala 的 源码 如 下 。 


4 Private[spark] class DiskStore(conf: SparkConf, diskManager: 
DiskBlockManager) extends Logging { 





Spark 2.2.0 版 本 的 DiskStore.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特 上 段 代 


码 中 第 1 行 新 增加 了 securityManager 安全 管理 的 成 员 变 量 。 


全 securityManager: SecurityManager) extends Logging { 


(6) DiskBlockManager: 管理 Logical Block 与 Disk 上 的 Physical Block 之 间 的 映射 关系 
并 负责 磁盘 文件 的 创建 、 读 写 等 。 

查看 WordCount 在 IDEA 中 的 运行 日 志 ， 日志 中 显示 INFO DiskBlockManager: Created 
local directory。DiskBlockManager 负责 磁盘 文件 的 管理 。 





2. 17/06/06 05:38:01 INFO BlockManagerMasterEndpoint: Using org.apache. 
spark.storage.DefaultTopologyMapper for getting topology information 

3. 17/06/06 05:38:01 INFO BlockManagerMasterEndpoint: 
BlockManagerMasterEndpoint up 

4. 17/06/06 05:38:01 INFO DiskBlockManager: Created local directory at 
C:\Users\dell\AppData\Local\Temp\blockmgr-a58a44dd-484b-4871-a92a-828 
872c98804 

5. 17/06/06 05:38:01 DEBUG DiskBlockManager: Adding shutdown hook 


“2 
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DiskBlockManager 负责 管理 逻辑 级 别 和 物理 级 别 的 映射 关系 ,根据 BlockID 映射 一 个 文 
件 。 在 目录 spark.local.dir 或 者 SPARK LOCAL DIRS 中 ，Block 文件 进行 hash 生成 。 通 过 
createLocalDirs 生成 本 地 目录 。DiskBlockManager 的 源码 如 下 。 


1 


FFPioocmwawmcwN 





Private [spark] class DiskBlockManager (conf: SparkConf, deleteFilesOnSstop: 
Boolean) extends Logging { 


private def createLocalDirs (Conf: SparkConf): Array[File] = { 
Utils.getConfiguredLocalDirs (conf) .flatMap { rootDir => 
try { 


val localDir = Utils.createDirectory (rootDir, "blockmgr") 
logInfo(s"Created local directory at $localDir") 
Some (localDir) 
下 Ce 
case e: IOException => 
logError(s"Failed to create local dir in $rootDir. Ignoring this 
directory.", e) 
None 
} 
} 
} 


从 Job 运行 的 角度 来 观察 BlockManager: 
查看 WordCount.scala 的 运行 日 志 : 日 志 中 显示 INFO BlockManagerInfo: Added 
broadcast_0_piece0 in memory， 将 BlockManagerInfo 的 广播 变量 加 入 到 内 存 中 。 


17/06/06 05:38:04 INFO MemoryStore: Block broadcast 0 piece0 stored as 
bytes in memory (estimated size 20.0 KB，free 637.0 MB) 

17/06/06 05:38:04 INFO BlockManagerInfo: Added broadcast 0 piece0 in 
memory on 192.168.93.1:63572 (size: 20.0 KB, free: 637.2 MB) 


Driver 使 用 BlockManagerInfo 管理 ExecutorBackend 中 BlockManager 的 元 数据 ， 
BlockManagerInfo 的 成 员 变量 包括 blockManagerId、 系 统 当 前 时 间 timeMs、 最 大 堆 内 内 存 
maxOnHeapMem、 最 大 堆 外 内 存 maxOffHeapMem、slaveEndpoint。 

Spark 2.1.1 版 本 的 BlockManagerMasterEndpoint.scala 的 源码 如 下 。 


CN wm 


private[spark] class BlockManagerInfo( 
val blockManagerId: BlockManagerId, 
timeMs: Long, 
val maxMem: Long, 
val slaveEndpoint: RpcEndpointRef) 
extends Logging { 


Spark 2.2.0 版 本 的 BlockManagerMasterEndpoint.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 








如 下 特点 。 
口 上 段 代 码 中 第 4 行 删除 maxMem。 
口 上 段 代 码 中 第 4 行 之 后 新 增 maxOnHeapMem 成 员 变 量 : 最 大 的 堆 内 内 存 大 小 。 
口 上 段 代 码 中 第 4 行 之 后 新 增 maxOfftHeapMem 成 员 变 量 : 最 大 的 堆 外 内 存 大 小 。 
2 . 2 well maxOnHeapMem: Long, 
3 val maxOffHeapMem: Long, 
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Se 


extends Logging { 


集群 中 每 启动 一 个 节点 , 就 创建 一 个 BlockManager, BlockManager 是 在 每 个 节点 (Driver 
及 Executors) 上 运行 的 管理 器 ， 用 于 存放 和 检索 本 地 和 远程 不 同 的 存储 块 (内 存 、 磁 盘 和 堆 


外 内 存 ) 。 


BlockManagerInfo 中 的 BlockManagerld 标明 是 哪个 BlockManager，slaveEndpoint 


是 消息 循环 体 ， 用 于 消息 通信 。 

(1) 首先 通过 MemoryStore 存储 广播 变量 。 

(2) 在 Driver 中 是 通过 BlockManagerInfo 来 管理 集群 中 每 个 ExecutorBackend 中 的 
BlockManager 中 的 元 数据 信息 的 。 

(3) 当 改 变 了 具体 的 ExecutorBackend 上 的 Block 信息 后 ， 就 必须 发 消息 给 Driver 中 的 
BlockManagerMaster 来 更 新 相应 的 BlockManagerInfo。 

(4) 当 执 行 第 二 个 Stage 的 时 候 ， 第 二 个 Stage 会 向 Driver 中 的 MapOutputTracker- 
MasterEndpoint 发 消息 请 求 上 一 个 Stage 中 相应 的 输出 , 此 时 MapOutputTrackerMaster 会 把 上 


一 个 Stage 








4 输出 数据 的 元 数据 信息 发 送 给 当前 请 求 的 Stage。 图 7-14 是 BlockManager 工作 


原理 和 运行 机 制 简 图 : 


每 个 Executor 中 的 BlockManager 实 例 化 的 时 候 向 Driver 中 的 ”ExecutorBackend 


BlockManagerMaster 注 册 ， 此 时 BlockManagerMaster 会 为 
其 创建 BlockManagerinfo 来 进行 元 数据 管理 


Executor 
BlockManager 
Memorystore BlockManagerWorker 


DiskStore BlockTransferService 
Block ManagerMaster: » 1 
Block Manager MasterEndpoint > 
BlockManagerlnfo 执行 Replication 操 作 网 络 操 作 
BlockStatus 
ExecutorBackend 
Executor 


BlockManager 
Memorystore BlockManagerWorker 


DiskStore BlockTransferService 


图 7-14 ”BlockManager 工作 原理 和 运行 机 制 简 图 


BlockManagerMasterEndpoint.scala 中 BlockManagerInfo 的 getStatus 方法 如 下 。 


和 


def getStatus (blockId: BlockId) : Option [BlockStatus] = Option( blocks. 
get (blockId) ) 


其 中 的 BlockStatus 是 一 个 case class。 


本 


2 
3. 1 


case class BlockStatus (StorageLeve1: StorageLevel, memSize: Long, 
diskSize: Long) { 


def isCached: Boolean = memSize + diskSize > 0 


2 


上 篇 ”内 核 解密 








BlockTransferService.scala 进行 网 络 连接 操作 ， 获 取 远 程 数 据 。 


: private[spark] 
2. abstract class BlockTransferService extends ShuffleClient with Closeable 
with Logging { 


7.6.5 ”BlockManager 解密 进 阶 ， BlockManager 初始 化 和 注册 解密 、 
BlockManagerMaster 工作 解密 、BlockTransferService 解密 、 
本 地 数据 读 写 解密 、 远 程 数据 读 写 解密 


BlockManager 既 可 以 运行 在 Driver 上 ， 也 可 以 运行 在 Executor 上 。 在 Driver 上 的 
BlockManager 管理 集群 中 Executor 的 所 有 的 BlockManager, BlockManager 分 成 Master、 Slave 
结构 ， 一 切 的 调度 、 一 切 的 工作 由 Master 触发 ，Executor 在 启动 的 时 候 一 定 会 启动 
BlockManager。BlockManager 主要 提供 了 读 和 写 数据 的 接口 ， 可 以 从 本 地 读 写 数据 ， 也 可 以 
从 远程 读 写 数据 。 读 写 数据 可 以 基于 磁盘 ,也 可 以 基于 内 存 以 及 OffHeap。OffHeap 就 是 堆 外 
空间 〈 如 Alluxion 是 分 布 式 内 存 管理 系统 ， 与 基于 内 存 计 算 的 Spark 系统 形成 天 衣 无 颖 的 组 
合 ， 在 大 数据 领域 中 ，Spark+Alluxion+Kafka 是 非常 有 用 的 组 合 ) 。 

从 整个 程序 运行 的 角度 看 , Driver 也 是 Executor 的 一 种 ,BlockManager 可 以 运行 在 Driver 

上 ， 也 可 以 运行 在 Executor 上 。BlockManager.scala 的 源码 如 下 。 


: private[spark] class BlockManager!( 

2 executorId: String, 

3 rpcEnv: RpcEnv, 

4. val master: BlockManagerMaster, 

二 val serializerManager: SerializerManager, 
6 val conf: SparkConf, 

7 memoryManager: MemoryManager, 

:后 mapOutputTracker: MapOutputTracker, 

9 shuffleManager: ShuffleManager, 


10: val blockTransferService: BlockTransferService, 

11. securityManager: SecurityManager, 

a numUsableCores: Int) 

13. extends BlockDataManager with BlockEvictionHandler with Logging { 
| 


15. val diskBlockManager = { 
Te // 如 果 外 部 服务 不 为 shuffle 文件 提供 服务 执行 清理 文件 


ee val deleteFilesOnStop = 
ER: 党 lexternalShuffleServiceEnabled || executorId == SparkContext. 
DRIVER IDENTIFIER 

a new DiskBlockManager (conf, deleteFilesOnstop) 

0 } 

2 

22. private val futureExecutionContext = ExecutionContext .fromExecutorService( 

35 ThreadUtils .newDaemonCachedThreadPool ("block-manager-future", 128)) 

nt 

2 private[spark] val memoryStore = 

4 new MemoryStore (conf, blockInfoManager, serializerManager, memoryManager, 
this) 

27. private[spark] val diskStore = new DiskStore(conf, diskBlockManager) 

28. memoryManager.setMemoryStore (memoryStore) 

ph 
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30. def initialize(appId: String) : Unit = { 

| 

BlockManager 中 的 成 员 变 量 中 : BlockManagerMaster 对 整个 集群 的 BlockManagerMaster 
进行 管理 ; serializerManager 是 默认 的 序列 化 器 ; MemoryManager 是 内 存 管理 ; 
MapOutputTracker 是 Shuffle 输出 的 时 候 ， 要 记录 ShuffleMapTask 输出 的 位 置 ， 以 供 下 一 个 
Stage 使 用 ， 因 此 需要 进行 记录 。BlockTransferService 是 进行 网 络 操作 的 ， 如 果 要 连同 另外 一 
个 BlockManager 进行 数据 读 写 操作 ， 就 需要 BlockTransferService。Block 是 Spark 运行 时 数 
据 的 最 小 抽象 单位 ， 可 能 放 入 内 存 中 ， 也 可 能 放 入 磁盘 中 ， 还 可 能 放 在 Alluxio 上 。 

SecurityManager 是 安全 管理 ，numUsableCores 是 可 用 的 Cores。 

BlockManager 中 DiskBlockManager 管理 磁盘 的 读 写 ， 创 建 并 维护 磁盘 上 逻辑 块 和 物理 
块 之 间 的 罗 辑 映射 位 置 。 一 个 block 被 映射 到 根据 BlockId 生成 的 一 个 文件 ， 块 文件 哈 希 列 
在 目录 spark.local.dir 中 〈( 如 果 设 置 了 SPARK LOCAL DIRS) ， 或 在 目录 (SPARK LOCAL 
DIRS) 中 。 

然后 在 BlockManager 中 创建 一 个 缓存 池 : block-manager-future 以 及 memoryStore 、 
diskStore。 

Shuffle 读 写 数据 的 时 候 是 通过 BlockManager 进行 管理 的 。 

Spark 2.1.1 版 本 的 BlockManager.scala 的 源码 如 下 。 


:| var blockManagerId: BlockManagerId = _ 

2 

3 // 服 务 此 Executor 的 shuffle 文件 的 服务 器 的 地 址 ， 这 或 者 是 外 部 的 服务 , 或 者 只 是 我 们 
// 自 己 的 Executor 的 BlockManager 

4. private[spark] var shuffleServerId: BlockManagerId = _ 




















6. // 客 户 端 读 取 其 他 Executors 的 shuffle 文件 。 这 或 者 是 一 个 外 部 服务 ， 或 者 只 是 
// 标 准 BlockTransferService 直接 连接 到 其 他 Executors 


ye 

83 private[spark] val shuffleClient = if (externalShuffleServiceEnabled) { 

~ val transConf = SparkTransportConf.fromSparkConf (conf, "shuffle", 
numUsableCores) 

10. new ExternalShuffleClient (transConf, securityManager, 
securityManager.isAuthenticationEnabled(), 

:bh securityManager .isSaslEncryptionEnabled()) 

人 } else { 

3 blockTransferService 

7 


Spark 2.2.0 版 本 的 BlockManager.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具 有 如 下 特点 : 上 
段 代 码 中 第 11 行 ExtemalShuffleClient 类 中 去 掉 securityManager.isSasl]EncryptionEnabled0) 成 


I 

2 new ExternalShuffleClient (transConf, securityManager, 
securityManager.isAuthenticationEnabled()) 

Se Ds 


BlockManager.scala 中 ，BlockManager 实例 对 象 通过 调用 initialize 方法 才能 正式 工作 ， 
传 入 参数 是 appId， 基 于 应 用 程序 的 ID 初始 化 BlockManager。initialize 不 是 在 构造 器 的 时 候 
被 使 用 ， 因 为 BlockManager 实例 化 的 时 候 还 不 知道 应 用 程序 的 ID, 应 用 程序 ID 是 应 用 程序 
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启动 


工 汪 


时 ，ExecutorBackend 向 Master 注册 时 候 获 得 的 。 
BlockManager.scala 的 initialize 方 法 中 的 BlockTransferService 进行 网 络 通信 .ShuffleClient 


是 BlockManagerWorker 每 次 启动 时 间 BlockManagerMaster 注册 。BlockManager.scala 的 
initialize 方法 中 调用 了 registerBlockManager， 问 Master 进行 注册 ， 告 诉 BlockManagerMaster 


把 自 


版 本 


己 注 册 进 去 。 
Spark 2.1.1 版 本 BlockManagerMaster.scala 的 registerBlockManager 的 源码 如 下 。 


8 def registerBlockManager( 

2 blockManagerId: BlockManagerId, 

ls maxMemSize: Long, 

4. slaveEndpoint: RpcEndpointRef): BlockManagerId = { 

5 logInfo(s"Registering BlockManager $blockManagerId") 

6. val updatedId = driverEndpoint.askWithRetry[BlockManagerId] ( 

i RegisterBlockManager (blockManagerId, maxMemSize, slaveEndpoint)) 
8. logInfo(s"Registered BlockManager S$updatedId") 

Qs updatedId 

10.0 } 


Spark 2.2.0 版 本 的 BlockManagerMaster.scala 的 registerBlockManager 的 源码 与 Spark 2.1.1 

相 比 具有 如 下 特点 。 

口 上 段 代 码 中 第 3 行 maxMemSize 删除 。 

口 上 段 代 码 中 第 3 行 之 后 新 增 参数 maxOnHeapMemSize: 最 大 的 堆 内 内 存 大 小 。 

口 上 段 代 码 中 第 3 行 之 后 新 增 参 数 maxOffHeapMemSize: 最 大 的 堆 外 内 存 大 小 。 

口 上 段 代 码 中 第 6 行 driverEndpoint.askWithRetry 方法 调整 为 driverEndpoint.askSync 
方法 。 

口 上 段 代 码 中 第 7 行 RegisterBlockManager 新 增 maxOnHeapMemSize、maxOffHeapMemSize 
两 个 参数 。 





本 

maxOnHeapMemSize: Long, 

3 maxOffHeapMemSize: Long, 

2 

人 val updatedId = driverEndpoint.askSync[BlockManagerId] ( 

咎 局 RegisterBlockManager (blockManagerId, maxOnHeapMemSize, 
maxOffHeapMemSize, slaveEndpoint)) 

Es 


registerBlockManager 方法 的 RegisterBlockManager 是 一 个 case class。 
Spark 2.1.1 版 本 的 BlockManagerMessages.scala 的 源码 如 下 。 


case class RegisterBlockManager( 
blockManagerId: BlockManagerId, 
maxMemSize: Long, 
sender: RpcEndpointRef) 

extends ToBlockManagerMaster 


MWDPP 


Spark 2.2.0 版 本 的 BlockManagerMessages.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 


上 段 代码 中 第 3 行 maxMemSize 删除 。 
上 段 代 码 中 第 3 行 之 后 新 增 成 员 变 量 maxOnHeapMemSize: 最 大 堆 内 内 存 大 小 。 
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1 
2 
3 
a 


上 段 代码 中 第 3 行 之 后 新 增 成 员 变 量 maxOffHeapMemSize: 最 大 堆 外 内 存 大 小 。 


maxOnHeapMemSize: Long, 
maxOffHeapMemSize: Long, 


在 Executor 实例 化 的 时 候 ， 要 初始 化 blockManager。blockManager 在 initialize 中 将 应 用 
程序 ID 传 进去 。 
Executor.scala 的 源码 如 下 。 


:了 
2 
3 
4. 


if (!isLocal) { 
env.metricsSystem.registerSource (executorSource) 
env.blockManager .initialize (conf .getAppId) 

} 


Executor.scala 中 ，Executor 每 隔 10s 向 Master 发 送 心 跳 消 息 ， 如 收 不 到 心跳 消息 ， 
blockManager 须 重 新 注册 。 
Spark 2.1.1 版 本 的 Executor.scala 的 源码 如 下 。 


本 
你 


Val message = Heartbeat (executorId，accumUpdates .toArray, 
env.blockManager .blockManagerId) 
try { 
Val response = heartbeatReceiverRef.askWithRetry 
[HeartbeatResponse] ( 
message, RpcTimeout (conf, "spark.executor.heartbeatIinterval", 
ollose Ny 
if (response.reregisterBlockManager) { 
logInfo("Told to re-register on heartbeat") 
env.blockManager .reregister () 
1 
heartbeatFailures = 0 
Fcatch { 
case NonFatal (e) => 
logWarning("Issue communicating with driver in heartbeater", e) 
heartbeatFailures += 1 
if (heartbeatFailures >= HEARTBEAT MAX FAILURES) { 
logError (s"Exit as unable to send heartbeats to driver "+ 
s"more than S$HEARTBEAT MAX FAILURES times") 
System.exit (ExecutorExitCode .HEARTBEAT FRILURE) 


Spark 2.2.0 版 本 的 Executor.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代码 
中 第 4 行 heartbeatReceiverRef.askWithRetry 方法 调整 为 heartbeatReceiverRef.askSync 方法 。 


加 





val response = heartbeatReceiverRef.askSync[HeartbeatResponse] ( 
message, RpcTimeout (conf, "spark.executor.heartbeatInterval", 
LOY 


到 BlockManagerMaster.scala 的 registerBlockManager: 


registerBlockManager 中 RegisterBlockManager 传 入 的 slaveEndpoint 是 : 具体 的 Executor 


二 


上 篇 ”内 核 解密 








启动 时 会 启动 一 个 BlockManagerSlaveEndpoint， 会 接收 BlockManagerMaster 发 过 来 的 指令 。 
在 initialize 方法 中 通过 master.registerBlockManager 传 入 slaveEndpoint， 而 slaveEndpoint 是 
在 IpcEnv.setupEndpoint 方法 中 调用 new0 函 数 创建 的 BlockManagerSlaveEndpoint。 

总 结 -= 

(1) 当 Executor 实例 化 的 时 候 ， 会 通过 BlockManager.initialize 来 实例 化 Executor 上 的 
BlockManager， 并 且 创 建 BlockManagerSlaveEndpoint 这 个 消息 循环 体 来 接受 Driver 中 
BlockManagerMaster 发 过 来 的 指令 ， 如 删除 Block 等 。 








: env.blockManager .initialize (conf .getAppId) 


BlockManagerSlaveEndpoint.scala 的 源码 如 下 。 


1 class BlockManagerSlaveEndpoint( 

这 志 override val rpcEnv: RpcEnv, 

E 居 blockManager: BlockManager, 

4 mapOutputTracker: MapOutputTracker) 

S extends ThreadSafeRpcEndpoint with Logging { 

(2) 当 BlockManagerSlaveEndpoint 实例 化 后 , Executor 上 的 BlockManager 需要 向 Driver 
上 的 BlockManagerMasterEndpoint 注册 。 

BlockManagerMaster 的 registerBlockManager 方法 ， 其 中 的 driverEndpoint 是 构建 
BlockManagerMaster 时 传 进去 的 。 

(3) BlockManagerMasterEndpoint 接收 到 Executor 上 的 注册 信息 并 进行 处 理 。 

Spark 2.1.1 版 本 的 BlockManagerMasterEndpoint.scala 的 源码 如 下 。 





1. class BlockManagerMasterEndpoint( 
也 override val rpcEnv: RPpcEnv， 


4.  ， override def receiveaAndReply(context: RpcCallContext): PartialFunction 
[Any, Unit] = { 

5 Case RegisterBlockManager (blockManagerId, maxMemSize, slaveEndpoint) => 

6. context .reply (register (blockManagerId, maxMemSize, slaveEndpoint)) 

7 


Spark 2.2.0 版 本 的 BlockManagerMasterEndpoint.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 
如 下 特点 。 
口 上 段 代 码 中 第 5 行 RegisterBlockManager 新 增 成 员 变 量 : maxOnHeapMemSize、 
maxOffHeapMemSize。 
口 上 段 代 码 中 第 6 行 register 新 增 成 员 变 量 : maxOnHeapMemSize、maxOffHeapMemSize。 


2. override def receiveAndReply(context: RpcCallContext): PartialFunction 
[Any, Unit] = { 


i case RegisterBlockManager (blockManagerId, maxOnHeapMemSize, 
maxOffHeapMemSize, slaveEndpoint) => 
4. context .reply (register (blockManagerId, maxOnHeapMemSize, 


maxOffHeapMemSize, slaveEndpoint)) 


BlockManagerMasterEndpoint 的 register 注册 方法 ， 为 每 个 Executor 的 BlockManager 生成 对 
应 的 BlockManagerInfo。BlockManagerInfo 是 一 个 HashMap[BlockManagerld, BlockManagerInfo]。 


se 
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register 注册 方法 源码 如 下 。 

Spark 2.1.1 版 本 的 BlockManagerMasterEndpoint scala 的 源码 如 下 。 

1. private val blockManagerInfo = new mutable.HashMap[BlockManagerId, 
BlockManagerInfo] 

2 A 

区 二 private def register( 

4. idWithoutTopologyInfo: BlockManagerId, 

5 maxMemSize: Long, 

6 slaveEndpoint: RpcEndpointRef): BlockManagerId = { 

7 //dummy id 不 应 包含 拓扑 信息 

8. // 我 们 在 这 里 得 到 信息 和 回应 一 个 块 标识 符 

了 val id = BlockManagerId!( 

10 idWithoutTopologyInfo.executorId, 

Lis idWithoutTopologyInfo.host, 

本 idWithoutTopologyInfo.port, 

133 topologyMapper .getTopologyForHost (idWithoutTopologyInfo.host)) 

14. 

se val time = System.currentTimeMillis() 

16 . if (!blockManagerInfo.contains (id)) { 

Ei blockManagerIdByExecutor.get (id.executorId) match { 

:党 case Some (oldId) => 

To // 同 一 个 Executor 的 块 管理 器 已 经 存在 ， 所 以 删除 它 〈 假 定 已 挂 掉 ? 

1 logError ("Got two different block manager registrations on same 

executor -" 

el 上 + s" will replace old one S$oldId with new one $id") 

2 removeExecutor (id.executorId) 

3 case None => 

24. } 

5 logInfo("Registering block manager %s with %s RAM, %s".format( 

26. id.hostPort, Utils.bytesToString (maxMemSize), id)) 

2 

28s blockManagerIdByExecutor (id.executorId) = id 

9 

305 blockManagerInfo (id) = new BlockManagerInfo!( 

:hp id, System.currentTimeMillis(), maxMemSize, slaveEndpoint) 

S25 } 

335 listenerBus.post (SparkListenerBlockManagerAdded (time, id, maxMemSize)) 

3 id 

S35 je 


Spark 2.2.0 版 本 的 BlockManagerMasterEndpoint.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 











如 下 特点 。 

口 上 段 代 码 中 第 5 行 删 掉 maxMemSize。 

口 上 段 代 码 中 第 5 行 之 后 Register 新 增 参 数 maxOnHeapMemSize: 最 大 堆 内 内 存 大 小 ; 
maxOffHeapMemSize: 最 大 堆 外 内 存 大 小 。 

口 上 段 代 码 中 第 26 行 日 志 打 印 时 新 增 最 大 堆 内 内 存 大 小 、 最 大 堆 外 内 存 大 小 的 信息 。 

口 上 段 代 码 中 第 31 行 构建 BlockManagerInfo 实例 时 传 入 maxOnHeapMemSize、 
maxOffHeapMemSize。 

口 上 段 代 码 中 第 33 行 listenerBus 监控 系统 增加 对 最 大 堆 内 内 存 大 小 、 最 大 堆 外 内 存 大 
小 信息 的 监控 。 

v0 

这 maxOnHeapMemSize: Long, 


“Re 


上 篇 ”内 核 解密 








maxOffHeapMemSize: Long, 
id.hostPort, Utils.bytesToString (maxOnHeapMemSize + 
maxOffHeapMemSize), id)) 


blockManagerInfo (id) = new BlockManagerInfo( 
id, System.currentTimeMillis(), maxOnHeapMemSize, 
maxOffHeapMemSize, slaveEndpoint) 


. listenerBus.post (SparkListenerBlockManagerAdded (time, id, 


maxOnHeapMemSize + maxOffHeapMemSize, 
Some (maxOnHeapMemSize), Some (maxOffHeapMemSize))) 


BlockManagerMasterEndpoint 中 ，BlockManagerld 是 一 个 class， 标 明了 BlockManager 
在 哪个 Executor 中 ， 以 及 host 主机 名 、port 端口 等 信息 。 
BlockManagerId.scala 的 源码 如 下 。 


和 
这 
区 
4. 
35 
Bs 


class BlockManagerId private ( 

private var executorId : String, 

private var host : String, 

private var port : Int, 

private var topologyInfo : Option[String]) 
extends Externalizable { 


BlockManagerMasterEndpoint 中 ，BlockManagerInfo 包含 内 存 、slaveEndpoint 等 信息 。 

回 到 BlockManagerMasterEndpoint 的 register 注册 方法 : 如 果 blockManagerInfo 没有 包含 
BlockManagerId， 根 据 BlockManagerId.executorId 查询 BlockManagerId， 如 果 匹 配 到 旧 的 
BlockManagerId， 就 进行 清理 。 

BlockManagerMasterEndpoint 的 removeExecutor 方法 如 下 。 


SE 
4 


private def removeExecutor (execId: String) { 

logInfo("Trying to remove executor " + execId + " from 

BlockManagerMaster.") 

blockManagerIdByExecutor.get (execId) .foreach (removeBlockManager) 
ji 


进入 removeBlockManager 方法 ， 从 blockManagerIdByExecutor 数据 结构 中 清理 掉 block 
manager 信息 ， 从 blockManagerInfo 数据 结构 中 清理 掉 所 有 的 blocks 信息 。removeBlockManager 
源码 如 下 。 

Spark 2.1.1 版 本 的 BlockManagerMasterEndpoint.scala 的 removeBlockManager 的 源码 如 下 。 


co~awm 必 wwN 


private def removeBlockManager (blockManagerId: BlockManagerId) { 
val info = blockManagerInfo (blockManagerId) 


// 从 blockManagerIdByExecutor 删除 块 管理 
blockManagerIdByExecutor -= blockManagerId.executorId 


// 将 它 从 blockManagerInfo 删除 所 有 的 块 
blockManagerInfo .remove (blockManagerId) 
val iterator = info.blocks.keySet.iterator 
while (iterator.hasNext) { 

val blockId = iterator.next 

val locations = blockLocations.get (blockId) 
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I locations -= blockManagerId 

Ya 1 (Locationg slze == 0D) 1{ 

1 blockLocations .remove (blockId) 

16 . } 

es } 

中 : 坑 listenerBus.post (SparkListenerBlockManagerRemoved (System. 
currentTimeMillis(), blockManagerId)) 

19. logInfo(s"Removing block manager $blockManagerId") 

20. . 


Spark 2.2.0 版 本 的 BlockManagerMasterEndpoint.scala 的 removeBlockManager 的 源码 与 
Spark 2.1.1 版 本 相 比 具 有 如 下 特点 : 上 段 代 码 中 第 16 一 20 行 整体 替换 为 以 下 代码 : 新 增 数据 
复制 处 理 。 


后 

2 // 如 果 没 有 块 管理 器 ， 就 注销 这 个 块 。 和 否则 ， 如 果 主 动 复制 启用 ， 块 block 是 一 个 RDD 
// 或 测试 块 block (后 者 用 于 单元 测试 ) ,我 们 发 送 一 条 消息 随机 选择 Executor 的 位 
// 置 来 复制 给 定 块 block。 注意 , 我 们 忽略 了 其 他 块 block 类 型 (如 广播 broadcast/ 
//shuffle blocks) ， 因 为 复制 在 这 种 情况 下 没有 多 大 意义 


4 logWarning(s"No more replicas available for $blockId !") 
上 } else if (proactivelyReplicate && (blockId.isRDD || blockId. 
isInstanceOf [TestBlockId])) { 


// 假 设 Executor 未 能 找 出 故障 前 存在 的 副本 数量 
val maxReplicas = locations.size + 1 
val i = (new Random(blockId.hashCode)) .nextInt (locations.size) 
val blockLocations = locations.toSeq 
val candidateBMId = blockLocations (i) 
blockManagerInfo.get (candidateBMId) .foreach { bm => 
val remainingLocations = locations.toSeq.filter(bm => bm != 
candidateBMId) 
val replicateMsg = ReplicateBlock (blockId, remainingLocations, 
maxReplicas) 
bm.slaveEndpoint .ask[Boolean] (replicateMsg) 


woo 


WNPO: 
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removeBlockManager 中 的 一 行 代码 blockLocations.remove 的 remove 方法 如 下 。 
HashMap.java 的 源码 如 下 。 


public V remove (Object key) { 
Node<K,V> e; 
return (e = removeNode (hash (key), key, null, false, true)) == null ? 
null : e.value; 





on 心 wN 


} 


互 


回 到 BlockManagerMasterEndpoint 的 register 注 册 方 法 :然后 在 blockManagerIdByExecutor 
中 加 入 BlockManagerld, 将 BlockManagerId 加 入 BlockManagerInfo 信息 , 在 listenerBus 中 进 
行 监听 ， 函 数 返回 BlockManagerId， 完 成 注册 。 
到 BlockManager.scala， 在 initialize 方法 通过 master.registerBlockManager 注册 成 功 以 
后 , 将 返回 值 赋值 给 idFromMaster。Initialize 初始 化 之 后 ,看 一 下 BlockManager.scala 中 其 他 
的 方法 。 











I 











a 
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reportAllBlocks 方法 : 具体 的 Executor 须 向 Driver 不 断 地 汇报 自己 的 状态 。 
BlockManager.scala 的 reportAllBlocks 方法 的 源码 如 下 。 


人 private def reportAllBlocks(): Unit = { 

帮 logInfo(s"Reporting ${blockInfoManager.size} blocks to the master.") 
二 for ((blockId, info) <- blockInfoManager.entries) { 

上 val status = getCurrentBlockStatus (blockId, info) 

if (info.tellMaster && !tryToReportBlockStatus (blockId, status)) { 
Gs logError(s"Failed to report $blockId to master; giving up.") 
return 

8. ， 

四 吕 } 

Oe 


reportAllBlocks 方法 中 调用 了 getCurrentBlockStatus， 包 括 内 存 、 人 磁盘 等 信息 。 
getCurrentBlockStatus 的 源码 如 下 。 


3 private def getCurrentBlockStatus (blockId: BlockId, info: BlockInfo): 
BlockStatus = { 

2 info.synchronized { 

3 info.level match { 

4. case null => 

5 BlockStatus .empty 

6. case level => 

7 val inMem = level.useMemory && memoryStore.contains (blockId) 

8 val onDisk = level.useDisk && diskStore.contains (blockId) 

9 val deserialized = if (inMem) level.deserialized else false 


10. val replication = if (inMem || onDisk) level.replication else 1 
de Val storageLevel = StorageLevell( 

2 useDisk = onDisk, 

3 useMemory = inMem, 

14. useOffHeap = level.useOffHeap, 

5 deserialized = deserialized, 

16. replication = replication) 

sy val memSize = if (inMem) memoryStore.getSize(blockId) else 0L 
0 val diskSize = if (onDisk) diskStore.getSize (blockId) else 0L 
19. BlockStatus (storageLevel, memSize, diskSize) 

OE } 

2 } 

2 


getCurrentBlockStatus 方法 中 的 BlockStatus， 包 含 存 储 级 别 StorageLevel、 内 存 大 小 、 磁 


盘 大 小 等 信息 。 


BlockManagerMasterEndpoint.scala 的 BlockStatus 的 源码 如 下 。 


1. case class BlockStatus(storageLevel: StorageLevel, memSize: Long, 
diskSize: Long) { 


2 def isCached: Boolean = memSize + diskSize > 0 

ey 

人 

5 object BlockStatus { 

6. def empty: BlockStatus = BlockStatus (StorageLevel .NONE, memSize 0L, 
diskSize = 0L) 

ee 




















可 到 BlockManager.scala， 其 中 的 getLocationBlockIds 方法 比较 重要 ， 根 据 BlockId 获取 


这 个 BlockId 所 在 的 BlockManager。 


二。 
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BlockManager.scala 的 getLocationBlockIds 的 源码 如 下 。 


ER private def getLocationBlockIds (blockIds: Array[BlockId]): Array[Seq 
[BlockManagerId]] = { 

| val startTimeMs = System.currentTimeMillis 

区 二 val locations = master.getLocations (blockIds) .toArray 

A logDebug ("Got multiple block location in %s".format 
(Utils.getUsedTimeMs (startTimeMs))) 

Ss locations 

6 } 





getLocationBlocklds 方法 中 根据 BlockId 通过 master.getLocations 疝 Master 获取 位 置信 息 , 因为 
master 管理 所 有 的 位 置信 息 。getLocations 方法 里 的 driverEndpoint 是 BlockManagerMasterEndpoint， 
Executor 向 BlockManagerMasterEndpoint 发 送 GetLocationsMultipleBlockIds 消息 。 

Spark 2.1.1 版 本 的 BlockManagerMaster.scala 的 getLocations 方法 的 源码 如 下 。 











rs def getLocations (blockIds: Array[BlockId]): IndexedSeq[Seq 
[BlockManagerId]] = { 

es driverEndpoint.askWithRetry[IndexedSeq[Seq[BlockManagerId]]]( 

GetLocationsMultipleBlockIds (blockIds)) 

4. 


Spark 2.2.0 版 本 的 BlockManagerMaster.scala 的 getLocations 方法 的 源码 与 Spark 2.1.1 版 
本 相 比 具有 如 下 特 上 段 代 码 中 第 2 行 driverEndpoint.askWithRetry 方法 调整 为 driverEndpoint. 
askSync 方法 。 





getLocations 中 的 GetLocationsMultipleBlockIds 是 一 个 case class。 


< [时 case class GetLocationsMultipleBlockIds (blockIds: Array[BlockId]) 
extends ToBlockManagerMaster 


在 BlockManagerMasterEndpoint 侧 接 收 GetLocationsMultipleBlockIds 消息 。 
BlockManagerMasterEndpoint.scala 的 receiveAndReply 方法 如 下 。 


1. override def receiveAndReply (context: RpcCallContext): PartialFunction 
[Any, Unit] = { 


0 

3 case GetLocationsMultipleBlockIds (blockIds) => 

Ce context .reply (getLocationsMultipleBlockIds (blockIds)) 

进入 getLocationsMultipleBlockIds 方法 ， 进 行 map 操作 ， 开 始 查询 位 置信 息 。 

2 private def getLocationsMultipleBlockIds( 

2 blockIds: Array[BlockId]): IndexedSeq[Seq[BlockManagerId]] = { 
i blockIds.map (blockId => getLocations (blockId) ) 

4. } 


进入 getLocations 方法 ， 首 先 判 断 内 存 缓存 结构 blockLocations 中 是 否 包含 blockId， 如 
果 已 包含 ， 就 获取 位 置信 息 ， 和 否则 返回 空 的 信息 。 
; private def getLocations (blockId: BlockId) : Seq[BlockManagerId] 


2 if (blockLocations.containsKey (blockId) ) blockLocations.get 
(blockId) .toSeq else Seq.empty 


{ 


as 
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是 一 


3. } 


其 中 ,blockLocations 是 一 个 重要 的 数据 结构 ,是 一 个 JHashMap。Key 是 BlockId。Value 
个 HashSet[BlockManagerId]， 使 用 HashSet。 因 为 每 个 BlockId 在 磁盘 上 有 副本 ， 不 同 机 











器 的 位 置 不 一 样 ， 而 且 不 同 副 本 对 应 的 BlockManagerId 不 一 样 ， 位 于 不 同 的 机 器 上 ， 所 以 使 


月 





取 本 


日 HashSet 数据 结构 。 


BlockManagerMasterEndpoint.scala 的 blockLocations 的 源码 如 下 。 


i private val blockLocations = new JHashMap[BlockId, mutable.HashSet 
[BlockManagerId]] 





可 到 BlockManager.scala，getLocalValues 是 一 个 重要 的 方法 ， 从 blockInfoManager 中 获 

地 数据 。 

口 首先 根据 blockId 从 blockInfoManager 中 获取 BlockInfo 信息 。 

口 从 BlockInfo 信息 获取 level 级 别 ， 根 据 level.useMemory && memoryStore.contains 

(blockId) 判断 是 否 在 内 存 中 ， 如 果 在 内 存 中 ， 就 从 memoryStore 中 获取 数据 。 

口 根据 levelLuseDisk && diskStore.contains (blockId) 判断 是 否 在 磁盘 中 ， 如 果 在 磁盘 
中 ， 就 从 diskStore 中 获取 数据 。 

Spark 2.1.1 版 本 的 BlockManager.scala 的 getLocalValues 方法 的 源码 如 下 。 











:Ee def getLocalValues (blockId: BlockId): Option[BlockResult] = { 
2 logDebug(s"Getting local block $blockId") 

2 blockInfoManager .lockForReading (blockId) match { 

4. case None => 

ET logDebug(s"Block $blockId was not found") 

Ba None 

i case Some (info) => 

8. val level = info.level 

-让 logDebug(s"Level for block $blockId is $level") 


0 if (level.useMemory && memoryStore .contains (blockId)) { 

至 val iter: Iterator [Any] = if (level.deserialized) { 

a memoryStore.getValues (blockId) .get 

3 } else { 

4 serializerManager.dataDeserializeStream( 

5 blockId, memoryStore.getBytes (blockId) .get.toInputStream() 
(info.classTag) 





6. } 

i val ci = CompletionIterator[Any, Iterator[Any]] (iter, 
releaseLock (blockId)) 

8= Some (new BlockResult (ci, DataReadMethod.Memory, info.size)) 

Ds } else if (level.useDisk && diskStore.contains (blockId)) { 
205 val iterToReturn: Iterator[Any] = { 
全] val diskBytes = diskStore.getBytes (blockId) 
和 2 if (level.deserialized) { 
23. val diskValues = serializerManager.dataDeserializeStream( 
24. blockId, 
5 diskBytes.toInputStream(dispose = true)) (info.classTag) 
Zoe maybeCacheDiskValuesInMemory (info, blockId, level, diskValues) 
2 六 } else { 
28. Val stream = maybeCacheDiskBytesInMemory (info, blockId, level, 

diskBytes) 

95 -map {_ -toInputStream (dispose = false)} 
30. .getOrElse { diskBytes .toInputStream(dispose = true) } 
3 serializerManager.dataDeserializeStream(blockId, stream) 


:334. 
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比 具 有 如 下 特点 。 

上 段 代 码 中 第 9 行 之 后 新 增 taskAttemptId 的 创建 。 

上 段 代码 中 第 17 行 releaseLock 新 增 一 个 参数 taskAttemptId。 

上 段 代 码 中 第 21、25、28、30 行 diskBytes 更 新 为 diskData。 

上 段 代码 中 第 21 行 之 后 新 增 val iterToRetum: Iterator[Any]。 

上 段 代 码 中 第 25 行 diskData.toInputStream 方法 删 掉 dispose = true 参数 。 

上 段 代 码 中 第 34 行 CompletionIterator 的 第 二 个 参数 调整 为 releaseLockAndDispose 
(blockId, diskData, taskAttemptId) 。 


325 
33. 
34. 


355 
36: 
37: 
38: 
39. 
40. 


(info.classTag) 
} 
} 
val ci = CompletionIterator[Any, Iterator[Any]] (iterToReturn, 
releaseLock (blockId)) 
Some (new BlockResult (ci, DataReadMethod.Disk, info.size)) 
} else { 
handleLocalReadFailure (blockId) 
i 


Spark 2.2.0 版 本 的 BlockManager.scala 的 getLocalValues 方法 的 源码 与 Spark 2.1.1 版 本 相 


口 





口 
口 
口 
口 
口 


oo ~ ou PAODP 
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// 在 迭代 器 iterator 完成 触发 时 ， 我 们 需要 从 一 个 没有 TaskContext 上 下 文 的 

// 线 程 捕获 taskId， 参 阅 spark-18406 讨论 

val ci = CompletionIterator[Any, Iterator[Any]] (iter, { 
releaseLock (blockId, taskAttemptId) 


val diskData = diskStore.getBytes (blockId) 
val iterToReturn: Iterator[Any] = { 


val stream= maybeCacheDiskBytesInMemory (info, blockId, level, 
diskData) 


回 到 BlockManager.scala，getRemoteValues 方法 从 远程 的 BlockManager 中 获取 block 数 


在 JVM 中 不 需要 去 获取 锁 。 
BlockManager scala 的 getRemoteValues 方法 的 源码 如 下 。 


Ys 


MOD 


ao 


private def getRemoteValues[T: ClassTag] (blockId: BlockId) : Option 
[BlockResult] = { 
val ct = implicitly[ClassTag[T]] 
getRemoteBytes (blockId) .map { data => 
val values = 


serializerManager.dataDeserializeStream(blockId, data.toInputStream 
(dispose = true)) (ct) 


new BlockResult (values, DataReadMethod.Network, data.size) 


x 
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Ts } 

8- } 

getRemoteValues 方法 中 调用 getRemoteBytes， 获 取 远 程 的 数据 ， 如 果 获 取 的 失败 次 数 超 
过 最 大 的 获取 次 数 (locations.size) ， 就 提示 失败 ,返回 空 值 ; 如 果 获 取 到 远程 数据 ， 就 返回 。 

getRemoteBytes 方法 调用 blockTransferService.fetchBlockSynec 方法 实现 远程 获取 数据 。 

BlockTransferService.scala 的 fetchBlockSync 方法 的 源码 如 下 。 

Spark 2.1.1 版 本 的 BlockTransferService.scala 的 fetchBlockSync 方法 的 源码 如 下 。 




















:3 def fetchBlockSync (host: String, port: Int, execId: String, blockId: 
String): ManagedBuffer = { 

加 // 线 程 等 待 的 监视 器 

3 val result = Promise [ManagedBuffer] () 

4. fetchBlocks (host, port, execId, Array(blockId), 

5 new BlockFetchingListener { 

6 override def onBlockFetchFailure(blockId: String, exception: 

Throwable): Unit = { 


了 result.failure (exception) 

本 1 

9 override def onBlockFetchSuccess (blockId: String, data: 
ManagedBuffer): Unit = { 

Os val ret = ByteBuffer.allocate (data.size.toInt) 

eh ret.put (data.nioByteBuffer ()) 

和 ret.flip() 

2 result.success (new NioManagedBuffer (ret) ) 

14. } 

5 

16 . ThreadUtils.awaitResult (result.future, Duration.Inf) 

EE 


Spark 2.2.0 版 本 的 BlockTransferService.scala 的 fetchBlockSync 方法 的 源码 与 Spark 2.1.1 
版 本 相 比 具有 如 下 特点 : 上 段 代 码 中 第 15 行 fetchBlocks 方法 新 增 了 shuffleFiles = null 参数 。 
fetchBlocks 方法 用 于 异步 从 远程 节点 获取 序列 块 ， 仅 在 调用 [ini 之 后 可 用 。 注 意 ， 这 个 API 
需要 一 个 序列 ， 可 以 实现 批 处 理 请 求 ， 而 不 是 返回 一 个 future， 底 层 实现 可 以 调用 
onBlockFetchSuccess 尽快 获取 块 的 数据 ， 而 不 是 等 待 所 有 块 被 取出 来 。 


人 }, shuffleFiles = null) 
2 
fetchBlockSync 中 调用 fetchBlocks 方法 ，NettyBlockTransferService 继承 自 
BlockTransferService， 是 BlockTransferService 实现 子 类 。 
Spark 2.1.1 版 本 的 NettyBlockTransferService 的 fetchBlocks 的 源码 如 下 。 


: override def fetchBlocks( 

2 host: String, 

3 port: Int, 

4. execId: String, 

5 blockIds: Array[String]， 

| listener: BlockFetchingListener): Unit = { 

Ws logTrace(s"Fetch blocks from $host:$port (executor id $execId)") 
| 

a val blockFetchStarter = new RetryingBlockFetcher.BlockFetchStarter { 
TO. override def createAndSstart (blockIds: Array[String], listener: 


BlockFetchingListener) { 


se 
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之 
a 
次 2 
证 
24. 
3 
26. 
有 
六 


val client = clientFactory.createClient (host, port) 
new OneForOneBlockFetcher (client, appId, execId, blockIds.toArray, 
listener) .start () 
} 
| 


val maxRetries = transportConf.maxIORetries () 
if (maxRetries > 0) { 
// 注 意 , Fetcher 将 正确 处 理 maxRetries 等 于 0 的 情况 ; 避免 它 在 代码 中 产生 Bug， 
// 一 旦 确定 了 稳定 性 ， 就 应 该 删除 if 语句 
new RetryingBlockFetcher (transportConf, blockFetchStarter, 
blockIds, listener) .start() 
} else { 
blockFetchStarter.createAndStart (blockIds, listener) 
: 
} catch { 
case e: Exception => 
logError ("Exception while beginning fetchBlocks", e) 
blockIds.foreach (listener.onBlockFetchFailure( ，e)) 
H 
} 


Spark 2.2.0 版 本 的 NettyBlockTransferService 的 fetchBlocks 的 源码 与 Spark 2.1.1 版 本 相 
比 具有 如 下 特点 :上段 代码 中 第 6 行 fetchBlocks 方法 新 增 了 shuffleFiles 参数 。 


shuffleFiles: Array[File]): Unit = { 


回 到 BlockManager.scala, 无 论 是 doPutBytes0, 还 是 doPutIterator0 方 法 中 ,都 会 使 用 doPut 


方法 s 


BlockManager.scala 的 doPut 方法 的 源码 如 下 。 


an 必 mwN 


private def doPut[T] ( 
blockId: BlockId, 
level: StorageLevel, 
classTag: ClassTag[ ], 
tellMaster: Boolean, 
keepReadLock: Boolean) (putBody: BlockInfo => Option[T]): Option[T] 
二 
require (blockId != null, "BlockId is null") 
require(level != null && level.isValid, "StorageLevel is null or 
invalid") 


val putBlockInfo = { 
val newInfo = new BlockInfo(level, classTag, tellMaster) 
if (blockInfoManager.lockNewBlockForWriting (blockId, newInfo)) { 
newInfo 
} else { 
logWarning(s"Block $blockId already exists on this machine; not 
re-adding it") 
if (!keepReadLock) { 
// 在 现 有 的 块 上 lockNewBlockForWriting 返回 一 个 读 锁 ， 所 以 我 们 必须 释放 它 
releaseLock (blockId) 
return None 
} 
} 


=e 
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2 

24. val startTimeMs = System.currentTimeMillis 
5 Var exceptionWasThrown: Boolean = true 

26. val result: Option[T] = try { 

2 Val res = putBody (putBlockInfo) 

28. exceptionWasThrown = false 

pt 

30. result 

3 } 


doPut 方法 中 ,lockNewBlockForWriting 写 入 一 个 新 的 块 前 先 尝试 获得 适当 的 锁 ， 如果 我 
们 是 第 一 个 写 块 ， 获 得 写 入 锁 后 继续 后 续 操 作 。 和 否则 ， 如 果 另 一 个 线程 已 经 写 入 块 ， 须 等 待 
写 入 完成 ， 才 能 获取 读 取 锁 ， 调 用 new0O 函 数 创 建 一 个 BlockInfo 赋值 给 putBlockImfo， 然 后 
通过 putBody(putBlockInfo) 将 数据 存 入 。putBody 是 一 个 匿名 函数 ， 输 入 BlockInfo， 输 出 的 
是 一 个 泛 型 Option[T]。putBody 函数 体内 容 是 doPutIterator 方法 (doPutBytes 方法 也 类 似 调 
用 doPut) 调用 doPut 时 传 入 的 。 

BlockManager.scala 的 doPutIterator 调用 doput 方法 ， 在 其 putBody 匿名 函数 体 中 进行 
判断 : 

如 果 是 level.useMemory， 则 在 memoryStore 中 放 入 数据 。 

如 果 是 level.useDisk， 则 在 diskStore 中 放 入 数据 。 

如 果 level.replication 大 于 1， 则 在 其 他 节点 中 存 入 副本 数据 。 

其 中 ，BlockManager.scala 的 replicate 方法 的 副本 复制 源码 如 下 。 

Spark 2.1.1 版 本 的 BlockManager.scala 的 replicate 方法 的 源码 如 下 。 


1 private def replicate( 

六 blockId: BlockId, 

< data: ChunkedByteBuffer, 

4 level: StorageLevel, 

与 classTag: ClassTag[ ]): Unit = { 


Ba ee 

7. while (numFailures <= maxReplicationFailures && 

8. !peersForReplication.isEmpty &E& 

9 peersReplicatedTo.size != numPeersToReplicateTo) { 

10< Val peer = peersForReplication.head 

bh Ery 

2 val onePeerStartTime = System.nanoTime 

3 logTrace(s"Trying to replicate $blockId of ${data.size} bytes to 

$peer") 

14. blockTransferService.uploadBlockSync( 

15. peer.host, 

16. peer.port, 

HT peer.executorId, 

了 blockId, 

19. new NettyManagedBuffer (data.toNetty), 

0 tLevel, 

4 classTag) 

ee 

Spark 2.2.0 版 本 的 BlockManager.scala 的 replicate 方法 的 源码 与 Spark 2.1.1 版 本 相 比 具 
有 如 下 特点 。 

口 上 段 代 码 中 第 5 行 replicate 方法 中 新 增 了 existingReplicas 参数 。 

口 上 段 代码 中 第 19 行 uploadBlockSync 方法 的 第 5 个 参数 由 NettyManagedBuffer 实例 
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调整 为 BlockManagerManagedBuffer 实例 。 


本 

这 existingReplicas: Set[BlockManagerId] = Set.empty): Unit = { 

A 

4. new BlockManagerManagedBuffer(blockIinfoManager, blockId, data, 
false), 

1 


replicate 方法 中 调用 了 blockTransferService.uploadBlockSync 方法 。 
BlockTransferService.scala 的 uploadBlockSync 的 源码 如 下 。 


1. def uploadBlockSync!( 


a hostname: String, 

全 = BoEE> Inty 

4. execId: String, 

> 介 blockId: BlockId,， 

6 blockData: ManagedBuffer, 

Te level: StorageLevel, 

8. classTag: ClassTag[ 1]): Unit = { 

十 val future = uploadBlock (hostname, port, execId, blockId, blockData, 
level, classTag) 

OS ThreadUtils.awaitResult (future, Duration.Inf) 

I O00 

2 


uploadBlockSync 中 又 调用 uploadBlock 方法 ，BlockTransferService.scala 的 uploadBlock 
方法 无 具体 实现 ，NettyBlockTransferService 是 BlockTransferService 的 子 类 ， 具 体 实 现 
uploadBlock 方法 。 

NettyBlockTransferService 的 uploadBlock 的 源码 如 下 。 


下 override def uploadBlock( 

人 hostname: String, 

二 Ports Tt 

4. execId: String, 

人 blockId: BlockId, 

6 blockData: ManagedBuffer, 

yh level: StorageLevel, 

8 classTag: ClassTag[ ]): Future[Unit] = { 

9 val result = Promise[Unit] () 

了 05 val client = clientFactory.createClient (hostname, port) 


rd // 使 用 JavaSerializer 序列 号 器 将 StorageLevel 和 ClassTag 序列 化 。 其 他 一 切 都 
// 用 我 们 的 二 进 制 协议 编码 

3 val metadata = JavaUtils.bufferToArray (serializer.newInstance(). 
serialize((level, classTag))) 


14. 

1 // 为 了 序列 化 ， 转 换 或 复制 NIO 缓冲 到 数组 

16. val array = JavaUtils.bufferToArray (blockData .nioByteBuffer ()) 

下 7 

85 client.sendRpc(new UploadBlock(appId, execId, blockId.toString, 
metadata, array) .toByteBuffer, 

49. new RpcResponseCallback { 

205 override def onSuccess (response: ByteBuffer): Unit = { 

ZE logTrace(s"Successfully uploaded block $blockId") 

2 result.success((): Unit) 

232 上 


2 


上 篇 ”内 核 解密 











人 override def onFailure (e: Throwable): Unit = { 

和 25 logError (s"Error while uploading block $blockId", e) 

26. result.failure(e) 

让 

28 . 1 

29 

30° result .future 

SE 

可 到 BlockManager.scala， 看 一 下 dropFromMemory 方法 。 如 果 存 储 级 别 定位 为 








MEMORY AND_DISK, 那么 数据 可 能 放 在 内 存 和 磁盘 中 , 内 存 够 的 情况 下 不 会 放 到 磁盘 上 ; 
如 果 内 存 不 够 ， 就 放 到 磁盘 上 ， 这 时 就 会 调用 dropFromMemory。 如 果 存 储 级 别 不 是 定义 为 
MEMORY AND_DISK， 而 只 是 存储 在 内 存 中 ， 内 存 不 够 时 ， 缓 存 的 数据 此 时 就 会 丢弃 。 如 
果 仍 需要 数据 ， 那 就 要 重新 计算 。 

Spark 2.1.1 版 本 的 BlockManager.scala 的 dropFromMemory 的 源码 如 下 。 





JE private[storage] override def dropFromMemory[T: ClassTag] ( 

2 blockId: BlockId, 

3 data: () => Either[RArray[T] ，ChunkedByteBuffer]) : StorageLevel = { 

4. logInfo(s"Dropping block $blockId from memory" 

5 val info = blockInfoManager.assertBlockIsLockedForWriting (blockId) 

1 var blockIsUpdated = false 

(Te val level = info.level 

3 

9. // 如 果 存 储 级 别 要 求 ， 则 保存 到 磁盘 

OG if (level.useDisk && !diskStore.contains (blockId) ) { 

a logInfo(s"Writing block $blockId to disk") 

he data() match { 

区 六 case Left (elements) => 

14. diskStore.put (blockId) { fileOutputStream => 

SS serializerManager.dataSerializeStream( 

16: blockIgd, 

I fileOutputStream, 

18. elements.toIterator) (info.classTag.asInstanceOf [ClassTag[T]] 

9< } 

20. case Right (bytes) => 

2 diskStore.putBytes (blockId, bytes) 

到 人 } 

3 blockIsUpdated = true 

24. } 

人 25 

26. // 实 际 由 内 存 存储 

2 val droppedMemorySize = 

28 . if (memoryStore.contains (blockId) ) memoryStore.getSize (blockId) 
else 0L 

29. val blockIsRemoved = memoryStore.remove (blockId) 

30 . if (blockIsRemoved) { 

3 Es blockIsUpdated = true 

325 } else { 

上 呈 logWarning(s"Block $blockId could not be dropped from memory as it 
does not exist") 

过 | 

汪汪 

36: val status = getCurrentBlockStatus (blockId, info) 

双 斩 属 if (info.tellMaster) { 

1 各 reportBlockStatus (blockId, status, droppedMemorySize) 

A 人 
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40 . if (blockIsUpdated) { 

41. addUpdatedBlockStatusToTaskMetrics (blockId, status) 
42. i 

43. status.storageLevel 

44. 上 


Spark 2.2.0 版 本 的 BlockManager.scala 的 dropFromMemory 的 源码 与 Spark 2.1.1 版 本 相 
比 具 有 如 下 特点 。 
上 段 代 码 中 第 14 行 fleOutputStream 名 称 调整 为 channel。 
上段 代码 中 第 14 行 之 后 新 增 代 码 : val out = Channels.newOutputStream(channel)。 
上段 代码 中 第 17 行 包 eOutputStream 调整 为 out。 





diskStore.put (blockId) { channel => 
val out = Channels.newOutputSstream(channel) 


BE 口 口 口 
| 


总 结 : dropFromMemory 是 指 在 内 存 不 够 的 时 候 ， 尝 试 释放 一 部 分 内 存 给 要 使 用 内 存 的 
应 用 ,释放 的 这 部 分 内 存 数据 需 考虑 是 丢弃 ， 还 是 放 到 磁盘 上 。 如 果 丢 弃 ， 如 5000 个 步骤 作 
为 一 个 Stage， 前 面 4000 个 步骤 进行 了 Cache，Cache 时 可 能 有 100 万 个 partition 分 区 单位 ， 
其 中 丢弃 了 100 个 ， 丢 奔 的 100 个 数据 就 要 重新 计算 ; 但是， 如 果 设 置 了 同时 放 到 内 存 和 磁 
盘 ， 此 时 会 放 入 磁盘 中 ， 下 次 如 果 需 要 ， 就 可 以 从 磁盘 中 读 取 数据 ， 而 不 是 重新 计算 。 


7.7 本 章 总 结 


本 章 阐述 了 Shuffle 原理 和 源码 ，Shuffle 的 框架 、Shuffle 的 框架 演进 、Shuffle 的 框架 内 
核 及 源码 、Shuffle 数据 读 写 的 源码 解析 等 内 容 ， 分 别 对 Hash Based Shuffle、Sorted Based 
Shuffle、Tungsten Sorted Based、Shuffle 与 Storage 模块 间 的 交互 进行 了 讲解 。 同 时 ， 本 章 着 
重 曾 述 了 BlockManager 架构 原理 、 运 行 流程 和 源码 解密 等 内 幕 内 容 。 
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本 章 对 Job 工作 原理 和 源码 进行 详解 。8.1 节 讲 解 Job 到 底 在 什么 时 候 产 生 ; 8.2 节 讲 解 
Stage 划分 内 幕 ; 8.3 节 讲 解 Task 全 生命 周期 详解 ; 8.4 节 讲 解 ShuffleMapTask 和 ResultTask 
处 理 结果 是 如 何 被 Driver 管理 的 。 


8.1 Job 到 底 在 什么 时 候 产生 











型 的 Job 逻辑 执行 图 如 图 8-1 所 示 ， 经 过 下 面 四 个 步 又 可 以 得 到 最 终 执行 结果 。 








图 8-1 和 典型 的 Job 逻辑 执行 图 


(1) 从 数据 源 〈 可 以 是 本 地 fle、 内 存 数 据 结构 、HDFS、HBase 等 ) 读 取 数据 创建 最 初 
的 RDD。 

(2) 对 RDD 进行 一 系列 的 transformation() 操作 ， 每 个 transformation(0) 会 产生 一 个 或 多 
个 包含 不 同类 型 的 RDD[T]。T 可 以 是 Scala 里 面 的 基本 类 型 或 数据 结构 , 不 限于 (K, V) 。 

(3) 对 最 后 的 final RDD 进行 action0 操 作 ， 每 个 partition 计算 后 产生 结果 result。 

(4) 将 result 回 送 到 driver 端 ， 进 行 最 后 的 Wlist[result) 计 算 。RDD 可 以 被 Cache 到 内 存 
或 者 checkpoint 到 磁盘 上 。RDD 中 的 partition 个 数 不 国定 ， 通 常 由 用 户 设 定 。RDD 和 RDD 
间 的 partition 的 依赖 关系 可 以 不 是 1 对 1, 如 图 8-1 所 示 , 既 有 1 对 1 关系 , 也 有 多 对 多 关系 。 





8.1.1 触发 Job 的 原理 和 源码 解析 


对 于 Spark Job 触发 流程 的 源码 ， 以 RDD 的 count 方法 为 例 开 始 。RDD 的 count 方法 代 
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码 如 下 所 示 。 
1. /** 
* 返回 RDD 中 元 素 的 数量 
2 
3. def count(): Long = sc.runJob(this, Utils.getIteratorSize _) .sum 


从 上 面 的 代码 可 以 看 出 ,count 方法 触发 SparkContext 的 runJob 方法 的 调用 .SparkContext 
的 runJob 方法 代码 如 下 所 示 。 


:3 


之 
生计 
4. 
5 


/** 

* 触发 一 个 Job 处 理 一 个 RDD 的 所 有 partitions， 并 且 把 处 理 结果 返回 到 一 个 数组 

*/ 

def runJob[T, U: ClassTag] (rdd: RDD[T], func: Iterator[T] => U): Array[U] ={ 
runJobl(rdd, func, 0 until rdd.partitions.length) 

} 


进入 SparkContext 的 runJob 方法 的 同名 重 载 方法 ， 代 码 如 下 所 示 。 


I 


[> 


EE 


/** 

* 触 发 一 个 Job 处 理 一 个 RDD 的 指定 部 分 的 partitions， 并 且 把 处 理 结 果 返 回 到 一 个 数组 

* 比 第 一 个 runJob 方法 多 了 一 个 partitions 数组 参数 

*/ 

def runJob[T，U: ClassTag] ( 
od: RDDUEI 
func: Iterator[T] => U, 

partitions: Seq[Int]): Array[U] = { 
val cleanedFunc = clean (func) 

runJob(rdd, (ctx: TaskContext, it: Iterator[T]) =>cleanedFunc (it), 
partitions) 


} 


再 进入 SparkContext 的 runJob 方法 的 另 一 个 同名 重 载 方法 ， 代 码 如 下 所 示 。 


/** 
* 触 发 一 个 Job 处 理 一 个 RDD 的 指定 部 分 的 partitions， 并 且 把 处 理 结果 返回 到 一 个 数组 
* 比 第 一 个 runJob 方法 多 了 一 个 partitions 数组 参数 ， 并 且 func 的 类 型 不 同 
*/ 
def runJob[T, U: ClassTag] ( 
Edd: RDDITE]2 
func: (TaskContext, Iterator[T]) => U, 
partitions: Seq[Int]): Array[U] = { 
val results = new Array[U] (partitions.size) 
runJob[T, U] (rdd, func, partitions, (index, res) => results (index) = res) 
results 


} 


i 一 次 进入 SparkContext 的 runJob 方法 的 另 一 个 同名 重 载 方法 ， 代 码 如 下 所 示 。 





/** 
* 触 发 一 个 Job 处 理 一 个 RDD 的 指定 部 分 的 partitions, 并 把 处 理 结果 给 指定 的 handler 
* 函 数 ， 这 是 Spark 所 有 Action 的 主 入 口 
*/ 
def runJob[T，U: ClassTag] ( 
rdd: RDDIT], 
func: (TaskContext, Iterator[T]) => U, 
partitions: Seq[Int]， 
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7. resultHandler: (Int，U) => Unit): Unit = { 


8 if (stopped.get()) { 

9. throw new IllegalStateException("SparkContext has been shutdown") 
0 } 

11. // 记 录 了 方法 调用 的 方法 栈 

了 2 val callsite = getCal1Site 

13. // 清 除 闭 包 ， 为 了 函数 能 够 序列 化 

EE val cleanedFunc = clean (func) 

15. logInfo("Starting Job: " + callSite.shortForm) 

16. if (conf.getBoolean("spark.logLineage", false)) { 

17. logInfo("RDD's recursive dependencies:\n" + rdd.toDebugString) 
18 } 


9 // 向 高 层 调度 器 (DAGScheduler) 提交 Job， 从 而 获得 Job 执行 结果 

20. dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, resultHandler, 
localProperties.get) 

21. progressBar.foreach( .finishAll ()) 

22. rdd.doCheckpoint () 

3 J 


8.1.2 触发 Job 的 算 子 案例 


Spark Application 里 可 以 产生 一 个 或 者 多 个 Job， 例 如 ，spark-shell 默认 启动 时 内 部 就 没 
有 Job， 只 是 作为 资源 的 分 配 程序 ， 可 以 在 spark-shell 里 面 写 代码 产生 若干 个 Job， 普 通 程序 
中 一 般 可 以 有 不 同 的 Action， 每 个 Action 一 般 也 会 触发 一 个 Job。 

给 定 Job 的 逻辑 执行 图 ， 如 何 生 成 物理 执行 图 ， 也 就 是 给 定 这 样 一 个 复杂 数据 依赖 图 ， 
如 何 合理 划分 Stage， 并 确定 Task 的 类 型 和 个 数 ? 

-个 直观 的 想法 是 将 前 后 关联 的 RDDs 组 成 一 个 Stage, 每 个 Stage 生成 一 个 Task。 这 样 
虽然 可 以 解决 问题 ， 但 效率 不 高 。 除 了 效率 问题 ， 这 个 想法 还 有 一 个 更 严重 的 问题 : 大 量 中 
间 数 据 需要 存储 。 对 于 task 来 说 ， 其 执行 结果 要 么 存 到 磁盘 ， 要 么 存 到 内 存 ， 或 者 两 者 皆 
有 。 如 果 每 个 箭头 都 是 Task， 每 个 RDD 里 面 的 数据 都 需要 存 起 来 ， 占 用 空间 可 想 而 知 。 

仔细 观察 一 下 逻辑 执行 图 会 发 现 : 在 每 个 RDD 中 ,每 个 Partition 是 独立 的 。 也 就 是 说 ， 
在 RDD 内 部 ， 每 个 Partition 的 数据 依赖 各 自 不 会 相互 干扰 。 因 此 ， 一 个 大 胆 的 想法 是 将 整 
个 流程 图 看 成 一 个 Stage， 为 最 后 一 个 finalRDD 中 的 每 个 Partition 分 配 一 个 Task。 

Spark 算法 构造 和 物理 执行 时 最 基本 的 核心 : 最 大 化 Pipeline。 基 于 Pipeline 的 思想 ， 数 
据 被 使 用 的 时 候 才 开始 计算 ， 从 数据 流动 的 视角 来 说 ， 是 数据 流动 到 计算 的 位 置 。 实 质 上 ， 
从 届 辑 的 角度 看 ， 是 算 子 在 数据 上 流动 。 从 算法 构建 的 角度 而 言 : 肯定 是 算 子 作用 于 数据 ， 
所 以 是 算 子 在 数据 上 流动 ; 方便 算法 的 构建 。 

从 物理 执行 的 角度 而 言 : 是 数据 流动 到 计算 的 位 置 ; 方便 系统 最 为 高 效 地 运行 。 对 于 
Pipeline 而 言 ， 数 据 计 算 的 位 置 就 是 每 个 Stage 中 最 后 的 RDD， 一 个 震撼 人 心 的 内 幕 真相 是 : 
每 个 Stage 中 除了 最 后 一 个 RDD 算 子 是 真实 的 外 ， 前 面 的 算 子 都 是 假 的 。 计 算 的 Lazy 特性 
导致 计算 从 后 往 前 回溯 , 形成 Computing Chain, 导致 的 结果 是 需要 首先 计算 出 具体 一 个 Stage 
内 部 左 侧 的 RDD 中 本 次 计算 依赖 的 Partition， 如 图 8-2 所 示 。 

整个 Computing Chain 根据 数据 依赖 关系 自 后 向 前 建立 ， 遇 到 ShuffleDependency 后 形成 
Stage。 在 每 个 Stage 中 ， 每 个 RDD 中 的 computeO 调 用 ParentRDD .iter0 将 parent RDDs 中 的 
records 一 个 个 fetch 过 来 。 
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RDD 算 子 计算 ; 

。 图 中 三 个 Stage: Stage 1 、Stage 2 、Stage 3。 

。 Stage 3: 内 部 左 侧 B 的 计算 依赖 于 G 的 Partition， 如 G 
为 3 个 Partition， 那 就 有 3 个 并 行 Task， 从 后 往 前 回 淹 ， 
B 也 是 3 个 Partition，3 个 Task。 

。 Stage 1: 内 部 A 设置 3 个 Partition， 与 Stage3 的 B 进 行 
groupBy 操 作 。 

。 Stage 2: 内 部 左 侧 C、D、F， 左 侧 C 的 计算 依赖 于 F 的 
Partition，F 设 置 两 个 Partition， 两 个 Task 并 行 计算 ， 从 
后 往 前 回 湖 ， 推 出 C、D、F 也 是 两 个 Iask，C、D、F 形 
成 了 map 的 Pipeline ; F 设 置 两 个 Partition， 与 E 是 两 个 
Task 并 行 计算 ; 将 C 、D 与 E 的 计算 结果 进行 Union 

。 Stage 2 : F 计 算 的 结果 再 与 Stage 3 的 B 进 行 Join。 





图 8-2 Stage 示意 图 


例如 ，collect 前 面 的 RDD 是 transformation 级 别 的 ， 不 会 立即 执行 。 从 后 往 前 推 ， 回 渊 
时 如 果 是 罕 依 赖 ， 则 在 内 存 中 迭代 ， 和 否则 把 中 间 结 果 写 出 到 磁盘 ， 和 暂 存 给 后 面 的 计算 使 用 。 

依赖 分 为 窄 依赖 和 宽 依赖 。 例 如 ， 现 实生 活 中 ， 工 作 依赖 一 个 对 象 ， 是 罕 依 赖 ， 依 赖 很 
多 对 象 ， 是 宽 依赖 。 窜 依赖 除了 一 对 一 ， 还 有 range 级 别 的 依赖 ， 依 赖 固定 的 个 数 ， 随 着 数 
据 的 规模 扩大 而 改变 。 如 果 是 宽 依赖 ， DAGScheduler 会 划分 成 不 同 的 Stage，Stage 内 部 是 基 
于 内 存 迭 代 的 ， 也 可 以 基于 磁盘 迭代 ，Stage 内 部 计算 的 逻辑 是 完全 一 样 的 ， 只 是 计算 的 数据 
不 同 而 已 。 具体 的 任务 就 是 计算 一 个 数据 分 片 , 一 个 Partition 的 大 小 是 128MB。 一 个 partition 
不 是 完全 精准 地 等 于 一 个 block 的 大 小 ， 一 般 最 后 一 条 记录 跨 两 个 block。 

Spark 程序 的 运行 有 两 种 部 署 方式 : Client 和 Cluster。 

默认 情况 下 建议 使 用 Client 模式 ， 此 模式 下 可 以 看 到 更 多 的 交互 性 信息 ， 及 运行 过 程 的 
信息 。 此 时 要 专门 使 用 一 台 机 器 来 提交 我 们 的 Spark 程序 ， 配 置 和 普通 的 Worker 配置 一 样 ， 
而 且 要 和 Cluster Manager 在 同样 的 网 络 环境 中 ， 因 为 要 指挥 所 有 的 Worker 去 工作 ，Worker 
里 的 线程 要 和 Driver 不 断 地 交互 。 由 于 Driver 要 驱动 整个 集群 ， 频 繁 地 和 所 有 为 当前 程序 分 
配 的 Executor 去 交互 ， 频 繁 地 进行 网 络 通信 ， 所 以 必须 在 同样 的 网 络 中 。 

也 可 以 指定 部 署 方式 为 Cluster, 这 样 真正 的 Driver 会 由 Master 决定 在 Worker 中 的 某 一 
台 机 器 。Master 为 你 分 配 的 第 一 个 Executor 就 是 Driver 级 别 的 Executor。 不 推荐 学 习 、 开 发 
的 时 候 使 用 Cluster， 因 为 Cluster 无 法 直接 看 到 一 些 日 志 信息 ， 所 以 建议 使 用 Client 方式 。 


8.2 Stage 划分 内 幕 


本 节 讲 解 Stage 划分 原理 及 Stage 划分 源码 。 一 个 Application 中 ， 每 个 Job 由 一 个 或 多 
个 Stage 构成 ，Stage 根据 宽 依 赖 (如 reducByKey、groupByKey 算 子 等 ) 进行 划分 。 


8.2.1 Stage 划分 原理 详解 


Spark Application 中 可 以 因为 不 同 的 Action 触发 众多 的 Job。 也 就 是 说 , 一 个 Application 
中 可 以 有 很 多 的 Job， 每 个 Job 是 由 一 个 或 者 多 个 Stage 构成 的 ， 后 面 的 Stage 依赖 于 前 面 的 
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Stage。 也 就 是 说 ， 只 有 前 面 依赖 的 Stage 计算 完毕 后 ， 后 面 的 Stage 才 会 运行 。 

Stage 划分 的 依据 就 是 宽 依 赖 , 什么 时 候 产 生 宽 依 赖 呢 ? 例如 , reducByKey、 groupByKey 
等 ，Action (如 collect) 导致 SparkContextrunJob 的 执行 ， 最 终 导 臻 DAGScheduler 中 的 
submitJob 的 执行 ， 其 核心 是 通过 发 送 一 个 case class JobSubmitted 对 象 给 eventProcessLoop 。 

eventProcessLoop 是 DAGSchedulerEventProcessLoop 的 具体 实例 ,而 DAGSchedulerEvent- 
ProcessLoop 是 EventLoop 的 子 类 , 具体 实现 EventLoop 的 onReceive 方法 。onReceive 方法 转 
过 来 回调 doOnReceive。 在 doOnReceive 中 通过 模式 匹配 的 方式 把 执行 路 由 到 JobSubmitted， 
在 handleJobSubmitted 中 首先 创建 finalStage， 创 建 finalStage 时 会 建立 父 Stage 的 依赖 链条 。 





8.2.2 Stage 划分 源码 详解 


Spark 的 Action 算 子 执行 SparkContextrunJob， 提 交 至 DAGScheduler 中 的 submitJob， 
submitJob 发 送 JobSubmitted 对 象 到 eventProcessLoop 循环 消息 队列 ， 提 交 该 任务 ， 其 中 
JobSubmitted 的 源码 如 下 。 

DAGSchedulerEvent.scala 的 源码 如 下 。 

RR private[scheduler] case class JobSubmitted( 

这 jobIlds Tnty 

3 finalRDD: RDD[ ]， 

4. func: (TaskContext, Iterator[ ]) => ， 

5 partitions: Array[Int], 

6 callsite: Callsite, 

7 listener: JobListener, 

8 properties: Properties = null) 

加 extends DAGSchedulerEvent 

eventProcessLoop 是 DAGSchedulerEventProcessLoop 的 具体 实例 ， 而 DAGScheduler- 
EventProcessLoop 是 EventLoop 的 子 类 ， 具 体 实现 EventLoop 的 onReceive 方法 ，onReceive 
方法 转 过 来 回调 doOnReceive。 

DAGScheduler.scala 的 源码 如 下 。 





1. private def doOnReceive (event: DAGSchedulerEvent): Unit = event match { 
case JobSubmitted (jobId, rdd, func, partitions, callSite, listener, 
properties) => 

< 人 dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, 

callSite, listener, properties) 


on 心 


case MapStageSubmitted(jobId, dependency, callSite, listener, 
properties) => 

6- dagScheduler .handleMapStageSubmitted (jobId，dependency，cal1Site， 
listener, properties) 


8.3 Task 全 生命 周期 详解 


本 节 讲 解 Task 的 生命 过 程 ， 对 Task 在 Driver 和 Executor 中 交互 的 全 生命 周期 原理 和 源 
码 进行 详解 。 
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8.3.1 Task 的 生命 过 程 详 解 


Task 的 生命 过 程 详解 如 下 。 
(1) 当 Driver 中 的 CoarseGrainedSchedulerBackend 给 CoarseGrainedExecutorBackend 发 
送 LaunchTask 之 后 ，CoarseGrainedExecutorBackend 收 到 LaunchTask 消息 后 ， 首 先 会 反 序 列 
化 TaskDescription 。 
(2) Executor 会 通过 launchTask 执行 Task， 在 launchTask 方法 中 调用 new0O 函 数 创 建 
TaskRunner，TaskRunner 继承 自 Runnable 接口 。 
(3) TaskRunner 在 ThreadPool 运行 具体 的 Task， 在 TaskRunner 的 run 方法 中 首先 会 通 
过 调用 statusUpdate 给 Driver 发 信息 汇报 自己 的 状态 ， 说 明 自 己 是 Running 状态 。 其 中 
execBackend 是 ExecutorBackend ，ExecutorBackend 是 一 个 trait， 其 具体 的 实现 子 类 是 
CoarseGrainedExecutorBackend， 其 中 的 statusUpdate 方法 中 将 向 Driver 提交 StatusUpdate 
(4) TaskRunner 内 部 会 做 一 些 准备 工作 : 例如 ， 反 序列 化 Task 的 依赖 ， 然 后 通过 网 络 获 
取 需 要 的 文件 、Jar 等 。 
(5) 然后 是 反 序 列 Task 本 身 。 
(6) 调用 反 序列 化 后 的 Task.run 方法 来 执行 任务 ， 并 获得 执行 结果 。 其 中 Task 的 run 方 
法 调用 时 会 导致 Task 的 抽象 方法 ranTask 的 调用 ， 在 Task 的 runTask 内 部 会 调用 RDD 的 
iterator 方法 ， 该 方法 就 是 我 们 针对 当前 Task 所 对 应 的 Partition 进行 计算 的 关键 所 在 , 在 处 理 
的 内 部 会 迭代 Partition 的 元 素 ， 并 交 给 我 们 自 定义 的 function 进行 处 理 ! 
口 对 于 ShuffleMapTask， 首 先 要 对 RDD 以 及 其 依赖 关系 进行 反 序列 化 ， 最 终 计算 会 调 
用 RDD 的 compute 方法 。 有 具体 计算 时 有 有 具体 的 RDD， 例 如 ，MapPartitionsRDD 的 
compute。compute 方法 其 中 的 f 就 是 我 们 在 当前 的 Stage 中 计算 具体 Partition 的 业务 
逻辑 代码 。 
口 对 于 ResultTask: 调用 rdd.iterator 方法 , 最 终 计 算 仍 然 会 调用 RDD 的 compute 方法 。 
(7) 把 执行 结果 序列 化 ， 并 根据 大 小 判断 不 同 的 结果 传 回 给 Driver。 
(8)CoarseGrainedExecutorBackend 给 DriverEndpoint 发 送 StatusUpdate 来 传输 执行 结果 。 
DriverEndpoint 会 把 执行 结果 传递 给 TaskSchedulerImpl 处 理 ， 然 后 交 给 TaskResultGetter 内 部 
通过 线程 去 分 别处 理 Task 执行 成 功 和 失败 时 的 不 同情 况 ， 最 后 告诉 DAGScheduler 任务 处 理 
结束 的 状况 。 


全 说 明 : 


@ 在 执行 具体 Task 的 业务 逻辑 前 ， 会 进行 四 次 反 序列 : 

a ) TaskDescription 的 反 序列 化 。 

b) 反 序列 化 Task 的 依赖 。 

c) Task 的 反 序 列 化 。 

d) RDD 反 序 列 化 。 

@ 在 Spark 1.6 中 ，AkkFrameSize 是 128MB， 所 以 可 以 广播 非常 大 的 任务 ; 而 任务 的 执 
行 结果 最 大 可 以 达到 1GB。Spark 2.2 版 本 中 ，CoarseGrainedSchedulerBackend 的 launchTask 
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方法 中 序列 化 任务 大 小 的 限制 是 maxRpcMessageSize 为 128MB. 
8.3.2 Task 在 Driver 和 Executor 中 交互 的 全 生命 周期 原理 和 源码 详解 


在 Standalone 模式 中 ，Driver 中 的 CoarseGrainedSchedulerBackend 给 CoarseGrained- 
ExecutorBackend 发 送 launchTasks 消息 ，CoarseGrainedExecutorBackend 收 到 launchTasks 消 
息 以 后 会 调用 executor.launchTask。 

CoarseGrainedExecutorBackend 的 receive 方法 如 下 ， 模 式 匹 配 收 到 LaunchTask 消息 : 

(1) LaunchTask 判断 Executor 是 否 存在 ， 如 果 Executor 不 存在 ， 则 直接 退出 ， 然 后 会 反 
序列 化 TaskDescription 。 

Spark 2.1.1 版 本 的 CoarseGrainedExecutorBackend 的 receive 方法 的 源码 如 下 。 





: val taskDesc = ser.deserialize[TaskDescription] (data.value) 


Spark 2.2.0 版 本 的 CoarseGrainedExecutorBackend 的 receive 方法 的 源码 如 下 。 


号 val taskDesc = TaskDescription.decode (data.value) 





(2) Executor 会 通过 launchTask 来 执行 Task，launchTask 方法 中 分 别传 入 taskId、 党 
次 数 、 任 务 名 称 、 序 列 化 后 的 任务 本 身 。 

Spark 2.1.1 版 本 的 CoarseGrainedExecutorBackend 的 receive 方法 的 源码 如 下 。 

He executor.launchTask (this, taskId = taskDesc.taskId, attemptNumber = 


taskDesc.attemptNumber, taskDesc.name, taskDesc.serializedTask) 


Spark 2.2.0 版 本 的 CoarseGrainedExecutorBackend 的 receive 方法 的 源码 如 下 。 


: executor.launchTask (this, taskDesc) 


进入 Executor.scala 的 launchTask 方法 ， 在 launchTask 方法 中 调用 new0 函 数 创建 一 个 
TaskRunner， 传 入 的 参数 包括 taskId、 尝 试 次 数 、 任 务 名 称 、 序 列 化 后 的 任务 本 身 。 然 后 放 
入 runningTasks 数据 结构 ， 在 threadPool 中 执行 TaskRunner。 

TaskRunner 本 身 是 一 个 Runnable 接口 。 

下 面 看 一 下 TaskRunner 的 run 方法 。TaskMemoryManager 是 内 存 的 管理 ，deserialize- 
StartTime 是 反 序列 化 开始 的 时 间 , setContextClassLoader 是 ClassLoader 加 载 具 体 的 类 。ser 是 
序列 化 器 。 

然后 调用 execBackend.statusUpdate，statusUpdate 是 ExecutorBackend 的 方法 ，Executor- 
Backend 通过 statusUpdate 给 Driver 发 信息 ， 汇 报 自己 的 状态 。 


三 Private [spark] trait ExecutorBackend { 
芝 汉 def statusUpdate (taskId: Long, state: TaskState, data: ByteBuffer) : Unit 
SE 


其 中 ，execBackend 是 ExecutorBackend，ExecutorBackend 是 一 个 trait， 其 具体 的 实现 子 
类 是 CoarseGrainedExecutorBackend。execBackend 实例 是 在 CoarseGrainedExecutorBackend 
的 receive 方法 收 到 LaunchTask 消息 ， 调 用 executor.launchTask(this, taskId = taskDesc.taskId, 
attemptNumber = taskDesc.attemptNumber, taskDesc.name, taskDesc.serializedTask) 时 将 
CoarseGrainedExecutorBackend 自己 本 身 的 this 实例 传 进来 的 。 这 里 调用 CoarseGrained- 
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ExecutorBackend 的 statusUpdate 方法 。statusUpdate 方法 将 向 Driver 提交 StatusUpdate 消息 。 


CoarseGrainedExecutorBackend 的 statusUpdate 的 源码 如 下 。 


3 override def statusUpdate (taskId: Long, state: TaskState, data: 
ByteBuffer) { 


信 3 val msg = StatusUpdate (executorId, taskId, state, data) 

KE 加 driver match { 

加 case Some (driverRef) => driverRef.send (msg) 

所 case None => logWarning(s"Drop $msg because has not yet connected 
to driver") 

6 } 

了 经 } 


(3) TaskRunner 的 ran 方法 中 ，TaskRunner 在 ThreadPool 中 运行 具体 的 Task， 在 


TaskRunner 的 run 方法 中 首先 会 通过 调用 statusUpdate 给 Driver 发 信息 汇报 自己 的 状态 ， 说 
明 自 己 是 Running 状态 。 


“了 execBackend.statusUpdate (taskId, TaskState.RUNNING, EMPTY _ BYTE BUFFER) 
其 中 ，EMPTY BYTE BUFFER 没有 具体 内 容 。 
45 private val EMPTY BYTE BUFFER = ByteBuffer.wrap(new Array[Byte] (0)) 


接 下 来 通过 Task.deserializeWithDependencies(serializedTask) 反 序列 化 Task， 得 到 一 个 


Tuple， 获 取 到 taskFiles、taskJars、taskProps、taskBytes 等 信息 。 


(4) Executor 会 通过 TaskRunner 在 ThreadPool 中 运行 具体 的 Task，TaskRunner 内 部 会 


做 一 些 准备 工作 : 反 序列 化 Task 的 依赖 。 

Spark 2.1.1 版 本 的 Executor.scala 的 源码 如 下 。 

eB val (taskFiles, taskJars, taskProps, taskBytes) = 

2 Task .deserializeWithDependencies (serializedTask) 

Spark 2.2.0 版 本 的 Executor.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代码 
中 第 1 一 2 行 Properties、addedFiles、addedJars 、serializedTask 等 信息 调整 为 从 taskDescription 
中 获取 。 

人 

区 Executor.taskDeserializationProps.set (taskDescription.properties) 

< updateDependencies (taskDescription.addedFiles, 

taskDescription.addedJars) 
A task = ser.deserialize[Task[Any]]( 
5 taskDescription.serializedTask, Thread.currentThread. 
getContextClassLoader) 

6 task.localProperties = taskDescription.properties 

Ts task.setTaskMemoryManager (taskMemoryManager) 

SE 


然后 通过 网 络 来 获取 需要 的 文件 、Jar 等 。 
Spark 2.1.1 版 本 的 Executor.scala 的 源码 如 下 。 


:3 updateDependencies (taskFiles, taskJars) 


Spark 2.2.0 版 本 的 Executor.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代 码 


中 taskFiles、taskJars 等 信息 调整 为 从 taskDescription.addedFiles, taskDescription. addedJars 中 
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获取 。 


updateDependencies (taskDescription.addedFiles, 
taskDescription.addedJars) 


再 来 看 一 下 updateDependencies 方法 。 从 SparkContext 收 到 一 组 新 的 文件 JARs， 下 载 
Task 运行 需要 的 依赖 Jars， 在 类 加 载 机 中 加 载 新 的 JARs 包 。updateDependencies 方法 的 源码 


如 下 。 


Spark 2.1.1 版 本 的 Executor.scala 的 源码 如 下 。 


Private def updateDependencies (newFiles: HashMap[String, Long], newJars: 
HashMap[String, Long]) { 


Lazy val hadoopConf = SparkHadoopUtil .get.newConfiguration (conf) 
synchronized { 
// 获 取 将 要 计算 的 依赖 关系 
for ((name, timestamp) <- newFiles if currentFiles.getOrElse (name, 
-1L) < timestamp) { 
logInfo("Fetching " + name + " with timestamp " + timestamp) 
// 使 用 useCache 获取 文件 ， 本 地 模式 关闭 缓存 
Utils.fetchFile (name, new File (SparkFiles.getRootDirectory()), conf, 
env.securityManager, hadoopConf, timestamp, useCache = !isLocal) 
currentFiles (name) = timestamp 
} 
for ((name, timestamp) <- newJars) { 
val localName = name.split("/").last 
val currentTimeStamp = currentJars.get (name) 
.orElse (currentJars.get (localName)) 
.getOorElse (-1L) 
if (currentTimeStamp < timestamp) { 
logInfo ("Fetching " + name + " with timestamp " + timestamp) 
// 使 用 useCache 获取 文件 ， 本 地 模式 关闭 缓存 
Utils.fetchFile (name, new File (SparkFiles.getRootDirectory () ) conf, 
env.securityManager, hadoopConf, timestamp, useCache = !isLocal) 
currentJars (name) = timestamp 
// 将 它 增加 到 类 装 入 器 中 
val url = new File(SparkFiles.getRootDirectory()， localName). 
toURI .toURL 
if (!urlClassLoader.getURLs () .contains (ur1)) { 
logInfo("Adding " + url + " to class loader") 
urlClassLoader.addURL (ur1l) 


Spark 2.2.0 版 本 的 Executor.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代 码 
中 第 1 行 newFiles、newJars 的 数据 类 型 由 HashMap[String, Long] 调 整 为 Map[String, Long]。 


| 


private def updateDependencies (newFiles: Map[String，Long]l ，newJUars: 
MaplStringy Longl) (se a 


Executor 的 updateDependencies 方法 中 ，Executor 运行 具体 任务 时 进行 下 载 ， 下 载 文 件 
使 用 synchronized 关键 字 ， 因 为 Executor 在 线程 中 运行 ， 同 一 个 Stage 内 部 不 同 的 任务 线程 
要 共享 这 些 内 容 ， 因 此 ExecutorBackend 多 条 线程 资源 操作 的 时 候 ， 需 要 通过 同步 块 加 锁 。 
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updateDependencies 方法 的 Utils.fetchFile 将 文件 或 目录 下 载 到 目标 目录 ， 支 持 各 种 方式 
获取 文件 ， 包 括 HITP，Hadoop 兼容 的 文件 系统 、 标 准 文件 系统 的 文件 ， 基 于 URL 参数 。 
获取 目录 只 支持 从 Hadoop 兼容 的 文件 系统 。 如 果 usecache 设置 为 tue， 第 一 次 尝试 取 文 件 
到 本 地 缓存 ， 执 行 同一 应 用 程序 进行 共享 。usecache 主要 用 于 executors， 而 不 是 本 地 模式 。 
如 果 目 标 文件 己 经 存在 ， 并 有 不 同 于 请 求 文件 的 内 容 ， 将 抛 出 SparkException 异常 。 


1 def fetchFilel( 
5 url: Stringy 




















人 targetDir: File, 

4. conf: SparkConf, 

Ss securityMgr: SecurityManager, 
6 hadoopConf: Configuration, 

9 timestamp: Long, 

Be useCache: Boolean) { 


和 
有 0 doFetchFile(url, localDir, cachedFileName, conf, securityMgr, hadoopConf) 
和 


doFetchFile 方法 如 下 ， 包 括 spark、http | https | ftp、file 各 种 协议 方式 的 下 载 。 


:ba private def doFetchFile( 

2 Url StEring 

3 targetDir: File, 

4. filename: String, 

D5 conf: SparkConf, 

6 securityMgr: SecurityManager, 

了 : hadoopConf: Configuration) { 

:人 val targetFile = new Filel(targetDir, filename) 

9 val uri = new URI (url) 

10. val fileOverwrite = conf.getBoolean("spark.files.overwrite", 
defaultValue = false) 

于 Option (uri .getScheme) .getOrElse ("file") match { 

2 case "spark" => 

本 

49 downloadFile(url, is, targetFile, fileOverwrite) 

i case "http™ I https® | EES > 

Er 

:个 民 downloadFile(url, in, targetFile, fileOverwrite) 

下 油 case "file" => 

Eh 

1 copyFile(url, sourceFile, targetFile, fileOverwrite) 

21. casen => 

2 val fs = getHadoopFileSystem(uri, hadoopConf) 

3 val path = new Path (uri) 

24. fetchHcfsFile (path, targetDir, fs, conf, hadoopConf, fileOverwrite, 

229 filename = Some (filename)) 

这 } 

2 } 


(5) 回 到 TaskRunner 的 run 方法 ， 所 有 依赖 的 Jar 都 下 载 完成 后 ,然后 是 反 序列 Task 本 身 。 
Spark 2.1.1 版 本 的 Executor.scala 的 源码 如 下 。 


区 task = ser.deserialize[Task[Any]] (taskBytes, Thread.currentThread. 
getContextClassLoader) 


Spark 2.2.0 版 本 的 Executor.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 





A 
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task = ser.deserialize[Task[Any]]( 
2 taskDescription.serializedTask, Thread.currentThread. 
getContextClassLoader) 


在 执行 具体 Task 的 业务 逻辑 前 会 进行 四 次 反 序列 。 
(a) TaskDescription 的 反 序列 化 。 
Cb) 反 序列 化 Task 的 依赖 。 
(c) Task 的 反 序 列 化 。 
(d) RDD 反 序 列 化 。 
(6) 回 到 TaskRunner 的 run 方法 ， 调 用 反 序列 化 后 的 Task.run 方法 来 执行 任务 并 获得 执 
行 结果 。 
其 中 , Task 的 ran 方法 调用 时 会 导致 Task 的 抽象 方法 runTask 的 调用 , 在 Task 的 runTask 
内 部 会 调用 RDD 的 iterator 方法 , 该 方法 就 是 针对 当前 Task 所 对 应 的 Partition 进行 计算 的 关 
键 所 在 ， 在 处 理 的 内 部 会 迭代 Partition 的 元 素 并 交 给 自 定义 的 function 进行 处 理 。 
进入 task.run 方法 ， 在 run 方法 里 面 再 调用 runTask 方法 。 
加 final def run( 
taskAttemptId: Long, 
attemptNumber: Int, 


区 
和: metricsSystem: MetricsSystem): T= { 

3 SparkEnv.get .blockManager.registerTask (taskAttemptId) 
6 

8 





context = new TaskContextImpl( 


2 1 记 try { 

:由 加 runTask (context) 

: 

进入 Task.scala 的 runTask 方法 ， 这 里 是 一 个 抽象 方法 ， 没 有 具体 的 实现 。 
: 吧 def runTask (context: TaskContext): T 


Task 包括 两 种 Task: ResultTask 和 ShuffleMapTask。 抽象 runTask 方法 由 子 类 的 runTask 
实现 。 先 看 一 下 ShuffleMapTask 的 runTask 方法 ，runTask 实际 运行 的 时 候 会 调用 RDD 的 
iterator， 然 后 针对 partition 进行 计算 。 


Te override def runTask (context: TaskContext): MapStatus = { 

2 

3 val ser = SparkEnv.get.closureSerializer.newInstance() 

4. val (rdd, dep) = ser.deserialize[ (RDD[_], ShuffleDependency[ , _, _])]( 

站 

6 Val manager = SparkEnv.get.shuffleManager 

Ws writer =manager.getWriter[Any, Any] (dep.shuffleHandle, partitionId, 
context) 

Be writer.write (rdd.iterator (partition, context) .asInstanceOf [Iterator 

[_ <: Product2[Any, Any]]]) 
ee writer.stop(success = true) .get 
[| 1 


ShuffleMapTask 在 计算 具体 的 Partition 之 后 实际 上 会 通过 shuffleManager 获得 的 
shuffleWriter 把 当前 Task 计算 内 容 根据 具体 的 shufleManager 实现 写 入 到 具体 的 文件 中 。 操 作 完 
成 以 后 会 把 MapStatus 发 送 给 DAGscheduler，Driver 的 DAGScheduler 的 MapOutputTracker 会 收 


"a 
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到 注册 的 信息 。 

同样 地 ，ResultTask 的 runTask 方法 也 是 调用 RDD 的 iterator， 然 后 针对 partition 进行 计 
算 。MapOutputTracker 会 把 ShuffleMapTask 执行 结果 交 给 ResultTask，ResultTask 根据 前 面 
Stage 的 执行 结果 进行 Shuffle， 产 生 整 个 Job 最 后 的 结果 。 





1 
2 
式 全 
4 


~ ao 





override def runTask (context: TaskContext): JI = { 

val ser = SparkEnv.get.closureSerializer.newInstance() 

val (rdd, func) = ser.deserialize[(RDD[T]，(TaskContext，Iterator[T]) 
2 


func (context, rdd.iterator (partition, context)) 


ResultTask、ShuffleMapTask 的 runTask 方法 真正 执行 的 时 候 ， 调 用 RDD 的 iterator， 对 
Partition 进行 计算 。RDD.scala 的 iterator 方法 的 源码 如 下 。 


了 
和 
4 


override def runTask (context: TaskContext): U={ 

val ser = SparkEnv.get.closureSerializer.newInstance() 

val (rdd, func) = ser.deserialize[ (RDD[T], (TaskContext, Iterator[T]) 
=> UI 


func (context， rdd.iterator (partition, context)) 


RDD.scala 的 iterator 方法 中 ， 如 果 storageLevel 不 等 于 NONE， 就 直接 获取 或 者 计算 得 
到 RDD 的 分 区 ; 如 果 storageLevel 是 空 ， 就 从 checkpoint 中 读 取 或 者 计算 RDD 分 区 。 
进入 computeOrReadCheckpoint: 


co ~aw 心 wN 


最 终 计 


:8 


private[spark] def computeOrReadCheckpoint (split: Partition, 
context: TaskContext): Iterator[T] = 
{ 
if (isCheckpointedAndMaterialized) { 
firstParent [T] .iterator (split, context) 
} else { 
compute (split, context) 
y 
} 


- 算 会 调用 RDD 的 compute 方法 。 


def compute(split: Partition, context: TaskContext): Iterator[T] 


RDD 的 compute 方法 中 的 Partition 是 一 个 trait。 


心情 


} 


trait Partition extends Serializable { 
def index: Int 
override def hashCode(): Int = index 
override def equals (other: Any): Boolean = super.equals (other) 


RDD 的 compute 方法 中 的 TaskContext 里 面 有 很 多 方法 ， 包 括 任务 是 否 完成 、 任 务 是 否 
中 断 、 任 务 是 否 在 本 地 和 运行、 任务 运行 完成 时 的 监听 器 、 任 务 运行 失败 的 监听 器 、stageId、 


partitionId、 


重 试 的 次 数 等 。 
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DS abstract class TaskContext extends Serializable { 

2. def isCompleted(): Boolean 

3. def isInterrupted() : Boolean 

4. def isRunningLocally() : Boolean 

5. def adqdqTaskCompletionListener (listener: TaskCompletionListener): TaskContext 
6. def addTaskCompletionListener(f: (TaskContext) => Unit): TaskContext 
7. def addTaskFailureListener (listener: TaskFailureListener): TaskContext 
8. def addTaskFailureListener(f: (TaskContext, Throwable) => Unit): TaskContext 
9. def stageId() 

10. def partitionId(): Int 

11. def attemptNumber(): Int 


下 面 看 一 下 TaskContext 具体 的 实现 TaskContextImpl。TaskContextImpl 维持 了 很 多 上 下 
文 信息 ， 如 stageId、partitionId、taskAttemptId、 重 试 次 数 、taskMemoryManager 等 。 

了 private[spark] class TaskContextImpl( 

二 val stageId: Int, 

3 val partitionId: Int, 

4. override val taskAttemptId: Long, 

5 override val attemptNumber: Int, 

6 override val taskMemoryManager: TaskMemoryManager, 

村 localProperties: Properties, 

8 @transient private val metricsSystem: MetricsSystem, 


9. // 默 认 值 仅 用 于 测试 


L0G override val taskMetrics: TaskMetrics = TaskMetrics.empty) 
11l. extends TaskContext 
12. with Logging { 


RDD 的 compute 方法 具体 计算 的 时 候 有 上 有 具体 的 RDD， 如 MapPartitionsRDD 的 compute、 
传 进去 的 Partition 及 TaskContext 上 下 文 。 
MapPartitionsRDD.scala 的 compute 的 源码 如 下 。 


: 例 override def compute (split: Partition, context: TaskContext) : Iterator[U] = 

FA f(context, split.index, firstParent[T].iterator(split, context)) 

MapPartitionsRDD.scala 的 compute 中 的 工 就 是 我 们 在 当前 的 Stage 中 计算 具体 Partition 
的 业务 逻辑 代码 。f 是 函数 ， 是 我 们 自己 写 的 业务 逻辑 。Stage 从 后 往 前 推 ， 把 所 有 的 RDD 
合并 变 成 一 个 ， 函 数 也 会 变 成 一 个 链条 ， 展 开 成 一 个 很 大 的 函数 。Compute 返回 的 是 一 个 
Iterator。 

Task 包括 两 种 Task: ResultTask 和 ShuffleMapTask。 

先 看 一 下 ShuffleMapTask 的 runTask 方法 ， 从 ShuffleMapTask 的 角度 讲 ，rdd.iterator 获 
得 数据 记录 以 后 ， 对 rdd.iterator 计算 后 的 Iterator 记录 进行 write。 


ls val manager = SparkEnv.get.shuffleManager 
2 writer =manager.getWriter[Any, Any] (dep.shuffleHandle, partitionId, 
context) 
天 二 writer.write (rdd.iterator (partition, context) .asInstanceOf 
[Iterator[ <: Product2[Any, Any]]]) 
a writer.stop(success = true) .get 


ResultTask.scala 的 runTask 方法 较 简 单 : 在 ResultTask 中 ，rdd iterator 获得 数据 记录 以 
后 ， 直 接 调用 func 函数 。func 函数 是 Task 任务 反 序 列 化 后 直接 获得 的 fun 函数 。 
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val (rdd, func) = ser.deserialize[ (RDD[T], (TaskContext, Iterator[T]) => U)]( 
ByteBuffer.wrap (taskBinary.value), Thread.currentThread. 
getContextClassLoader) 


func (context, rdd.iterator(partition, context)) 


(7) 回 到 TaskRunner 的 rm 方法 ， 把 执行 结果 序列 化 ， 并 根据 大 小 判断 不 同 的 结果 传 回 





给 Driver。 
口 taskrun 运行 的 结果 赋值 给 value。 
口 resultSer.serialize(value) 把 task.run 的 执行 结果 value 序列 化 。 
口 maxResultSize > 0 && resultSize > maxResultSize 对 任务 执行 结果 的 大 小 进行 判断 ， 


并 进行 相应 的 处 理 。 任 务 执行 完 以 后 ， 任 务 的 执行 结果 最 大 可 以 达到 1GB。 


如 果 任 务 执行 结果 特别 大 ， 超 过 1GB， 日 志 就 会 提示 超出 任务 大 小 限制 。 返 回 元 数据 
ser.serialize(new IndirectTaskResult[Any](TaskResultBlockId(taskId), resultSlze))。 

如 果 任 务 执行 结果 小 于 1GB, 大 于 maxDirectResultSize(128MB ) , 就 放 入 blockManager， 
返回 元 数据 ser.serialize(new IndirectTaskResult[Any](blockId, resultSize))。 

如 果 任 务 执行 结果 小 于 128MB， 就 直接 返回 serializedDirectResult。 

TaskRunner 的 run 方法 如 下 。 

Spark 2.1.1 版 本 的 Executor.scala 的 源码 如 下 。 


oneaowmcwn 


override def run(): Unit = { 
val value = try { 
val res = task.run( 
taskAttemptId = taskId, 


attemptNumber = attemptNumber, 
metricsSystem = env.metricsSystem) 
threwException = false 
Res 


val valueBytes = resultSer.serialize (value) 
val directResult = new DirectTaskResult (valueBytes, accumUpdates) 
val serializedDirectResult = ser.serialize(directResult) 
val resultSize = serializedDirectResult.1imit 


val serializedResult: ByteBuffer = { 
if (maxResultSize > 0 && resultSize > maxResultSize) { 
ser.serialize (new IndirectTaskResult[Any] (TaskResultBlockId 
(taskId), resultSize)) 
} else if (resultSize > maxDirectResultSize) { 
val blockId = TaskResultBlockId (taskId) 
env.blockManager .putBytes( 
blockIgd, 
new ChunkedByteBuffer (serializedDirectResult.duplicate()), 
StorageLevel .MEMORY AND DISK SER) 


} else { 


serializedDirectResult 


ua 
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Spark 2.2.0 版 本 的 Executor.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代 码 
中 第 6 行 attemptNumber 调整 为 taskDescription attemptNumber。 


人 attemptNumber = taskDescription.attemptNumber, 


其 中 的 maxResultSize 大 小 是 1GB， 任 务 的 执行 结果 最 大 可 以 达到 1GB。 


i Executor.scala 

2. // 对 结果 的 总 大 小 限制 的 字 节 数 〈 默 认为 1GB) 

< 售 private val maxResultSize = Utils.getMaxResultSize (conf) 

ee 

5: Utils.scala 

6 // 对 结果 的 总 大 小 限制 的 字 节 数 〈 默 认为 1GB) 

了 5 def getMaxResultSize(conf: SparkConf): Long = { 

Bs memoryStringToMb (conf .get ("spark.driver.maxResultSize", 
"1g") ) .toLong << 20 

9 } 


其 中 的 Executor.scala 中 的 maxDirectResultSize 大 小 ， 取 spark.task.maxDirectResultSize 
和 RpcUtils.maxMessageSizeBytes 的 最 小 值 。 其 中 spark.rpc.message.maxSize 默认 配置 是 
128MB 。spark.task.maxDirectResultSize 在 配置 文件 中 进行 配置 。 


:i private val maxDirectResultSize = Math.min( 

2 conf .getSizeAsBytes ("spark.task.maxDirectResultSize", 1L << 20), 

:全 RpcUtils.maxMessageSizeBytes (conf)) 

A 

5. def maxMessageSizeBytes (conf: SparkConf): Int = { 

6. val maxSizeInMB = conf.getInt ("spark.rpc.message.maxSize", 128) 

Ts if (maxSizeInMB > MAX MESSAGE SIZE IN MB) { 

8. throw new IllegalArgumentException( 

褒 s"spark.rpc.message.maxSize should not be greater than S$MAX 
MESSAGE SIZE IN MB MB") 

10. } 

让 本 maxSizeInMB * 1024 * 1024 

2 


补充 说 明 : Driver 发 消息 给 Executor，Spark 1.6 版 本 中 CoarseGrainedSchedulerBackend 
的 launchTask 方法 中 序列 化 任务 大 小 的 限制 是 akkaFrameSize-AkkaUtils.reservedSizeBytes。 
其 中 ，akkaFrameSize 是 128MB ，reservedSizeBytes 是 200B 。 

Spark 1.6.0 版 本 的 CoarseGrainedSchedulerBackend.scala 的 源码 如 下 。 


private def launchTasks (tasks: Seq[Seq[TaskDescription]]) { 
if (serializedTask.limit >= akkaFrameSize - AkkaUtils. 
reservedSizeBytes) { 


I 


private val akkaFrameSize = AkkaUtils .maxFrameSizeBytes (conf) 
def maxFrameSizeBytes(conf: SparkConf): Int = { 
val frameSizeInMB = conf.getInt("spark.akka.frameSize", 128) 
if (frameSizeInMB > AKKA MAX FRAME SIZE IN MB) { 
throw new IllegalArgumentException( 
s"spark .akka.frameSize should not be greater than $AKKA MAX FRAME 
SIZE IN MB MB") 


PO 


Po.: 


“pe 
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2 下 

于 3 frameSizeInMB * 1024 * 1024 
14. } 

人 


16. val reservedSizeBytes = 200 * 1024 


Ls 


Spark 2.2.0 版 本 的 CoarseGrainedSchedulerBackend.scala 的 源码 与 Spark 1.6.0 版 本 相 比 具 


有 如 下 
口 





加 oo~awm 必 wm 
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特点 。 

上 段 代 码 中 第 3 行 Driver 发 消息 给 Executor， 发 送 任务 的 序列 化 大 小 的 限制 
serializedTask.limit 从 akkaFrameSize - AkkaUtils reservedSizeBytes 调整 为 maxRpc- 
MessageSize。 

上 段 代 码 中 第 5 行 AkkaUtils.maxFrameSizeBytes(conf) 调 整 为 RpcUtils.maxMessage- 
SizeBytes(conf) 。 

上 段 代 码 中 第 7 一 14 行 maxFrameSizeBytes 函数 整体 替换 为 以 下 代码 。Spark 2.2.0 
版 本 中 ，CoarseGrainedSchedulerBackend 的 launchTasks 方法 中 序列 化 任务 大 小 的 限 
制 是 maxRpcMessageSize 为 128MB。 





if (serializedTask.limit >= maxRpcMessageSize) { 


private val maxRpcMessageSize = RpcUtils.maxMessageSizeBytes (conf) 


def maxMessageSizeBytes (conf: SparkConf): Int = { 
val maxSizeInMB = conf.getInt ("spark.rpc.message.maxSize", 128) 
if (maxSizeInMB > MAX MESSAGE SIZE IN MB) { 
throw new IllegalArgumentException( 
s"spark.rpc.message.maxSize should not be greater than 
SMAX MESSAGE SIZE IN MB MB") 
} 
maxSizeInMB * 1024 * 1024 
1 
| 


到 TaskRunner 的 run 方法 ，execBackend.statusUpdate(taskId，TaskState FINISHED， 


serializedResult) 给 Driver 发 送 一 个 消息 ,消息 中 将 taskId、TaskState.FINISHED、serializedResult 


放 进 去 


statusUpdate 方法 的 源码 如 下 。 


(8 


override def statusUpdate (taskId: Long, state: TaskState, data: 
ByteBuffer) { 
val msg = StatusUpdate (executorId, taskId, state, data) 
driver match { 
case Some (driverRef) => driverRef .send (msg) 
case None => logWarning(s"Drop $msg because has not yet connected 
to driver") 
} 
} 


) CoarseGrainedExecutorBackend 给 DriverEndpoint 发 送 StatusUpdate 来 传输 执行 结 


果 ，DriverEndpoint 会 把 执行 结果 传递 给 TaskSchedulerImpl 处 理 ， 然 后 交 给 TaskResultGetter 


a 
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内 部 通过 线程 去 分 别处 理 Task 执行 成 功 和 失败 的 不 同情 况 ， 最 后 告诉 DAGScheduler 任务 处 


理 结 


源 ， 


束 的 状况 。 

CoarseGrainedSchedulerBackend.scala 中 DriverEndpoint 的 receive 方法 如 下 。 
上 override def receive: PartialFunction[Any, Unit] = { 

这 case StatusUpdate (executorId, taskId, state, data) => 

3 scheduler.statusUpdate (taskId, state, data.value) 

4. if (TaskState.isFinished(state)) { 

5 executorDataMap .get (executorId) match { 

6: case Some (executorInfo) => 

hs executorInfo.freeCores += scheduler.CPUS PER TASK 
85 makeOffers (executorId) 

9 case None => 

10. // 忽 略 更 新 ， 因 为 我 们 不 知道 Executor 

了 logWarning (s"Ignored task status update ($taskId state $state)"+ 
a s"from unknown executor with ID SexecutorId") 
135 } 

14. 下 


DriverEndpoint 的 receive 方法 中 ，StatusUpdate 调用 scheduler.statusUpdate， 然 后 释放 资 

再 次 进行 资源 调度 makeOffers(executorId)。 

TaskSchedulerImpl 的 statusUpdate 中 : 

口 如 果 是 TaskStateLOST， 则 记录 下 原因 ， 将 Executor 清理 掉 。 

口 如 果 是 TaskState.isFinished， 则 从 taskSet 中 运行 的 任务 中 remove 掉 任务 ， 调 用 
taskResultGetter.enqueueSuccessfulTask 处 理 。 

口 如 果 是 TaskState.FAILED、TaskState.KILLED、TaskState.LOST， 则 调用 taskResultGetter. 
enqueueFailedTask 处 理 。 

TaskSchedulerImpl 的 statusUpdate 的 源码 如 下 。 


le def statusUpdate (tid: Long, state: TaskState, serializedData: 
ByteBuffer) { 


人 var failedExecutor: Option[String] = None 
油 var reason: Option[ExecutorLossReason] = None 
-区 synchronized { 
ye Ery 攻 
[ taskIdToTaskSetManager .get (tid) match { 
EE case Some (taskSet) => 
8. if (state == TaskState.LOST) { 
9. //TaskState.LOST 只 被 废弃 的 Mesos 细 粒 度 的 调度 模式 使 用 , 每 个 Executor 对 应 单 
// 个 任务 ， 因 此 将 Executor 标记 为 失败 
2 1 val execId = taskIdToExecutorId.getOrElse(tid, throw new 
IllegalSstateException( 
人 "taskIdToTaskSetManager .contains (tid) <=> taskIdToExecutorId. 
contains (tid)") ) 
了 if (executorIdToRunningTaskIds .contains (execId)) { 
EE reason = Somel( 
:i SlaveLost (s"Task $tid was lost, so marking the executor 
as lost as well.")) 
[二 removeExecutor (execId， reason .get) 
16 . failedExecutor = Some (execId) 
Ts } 
18 . } 
Lk if (TaskState.isFinished(state)) { 
20. cleanupTaskState (tid) 


ws 
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1 taskSet .removeRunningTask (tid) 

2 if (state == TaskState.FINISHED) { 

2 taskResultGetter .enqueueSuccessfulTask (taskSet，tid， 
serializedData) 

4 } else if (Set(TaskState.FAILED, TaskState.KILLED, T 

askState.LOST) .contains (state)) { 

25s taskResultGetter.enqueueFailedTask (taskSet, tid, state, 
serializedData) 

26. } 

27s } 

29- case None => 

29. logError( 

30- ("Ignoring update with state %s for TID %s because its task 

set is gone (this is "+ 

3 "likely the result of receiving duplicate task finished 
status updates) or its "+ 

3 "executor has been marked as failed.") 

3 .format (state, tid)) 

34. } 

35: }y cateh 4 

2365 case e: Exception => logError("Exception in statusUpdate", e) 

ST } 

38. } 

39. // 更 新 DAGScheduler 时 没 持 有 这 个 锁 ， 所 以 可 能 导致 死 锁 

40. if (failedExecutor.isDefined) { 

a assert (reason.isDefined) 

42. dagScheduler .executorLost (failedExecutor.get, reason.get) 

3 backend.reviveOffers () 

44. } 

a 


其 中 ，taskResultGetter 是 TaskResultGetter 的 实例 化 对 象 。 


:村 private[spark] var taskResultGetter = new TaskResultGetter (sc.env, 
this) 


TaskResultGetter.scala 的 源码 如 下 。 


i private[spark] class TaskResultGetter (sparkEnv: SparkEnv, scheduler: 
TaskSchedulerImpl) 

之 extends Logging { 

3 

4. private val THREADS = sparkEnv.conf.getInt ("spark.resultGetter. 
threads", 4) 

局 

6. // 用 于 测试 

这 protected val getTaskResultExecutor: ExecutorService = 

:但 ThreadUtils.newDaemonFixedThreadPoo] (THREADS, "task-result-getter") 

站 后 

10. def enqueueSuccessfulTask( 

Er 。 taskSetManager: TaskSetManager, 

2 Eid: Long, 

横江 serializedData: ByteBuffer): Unit = { 

i getTaskResultExecutor.execute (new Runnable { 

有 override def run(): Unit = Utils.logUncaughtExceptions { 

16. he 3 

I val (result, size) = serializer.get() .deserialize[TaskResult[ ]] 

(serializedData) match { 
18. case directResult: DirectTaskResult[ ] => 
39“ if (!taskSetManager .canFetchMoreResults (serializedData. 


“和 
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limit())) { 
205 return 
2 上 
2 // 反 序列 化 “ 值 ”时 不 持 有 任何 锁 ， 所 以 不 会 阻止 其 他 线程 。 我 们 在 这 里 调用 它 ， 这 样 在 
//TaskSetManager .handleSuccessfulTask 中 , 当 它 再 次 被 调用 时 , 不 需要 反 序 列 化 值 
2 directResult.value (taskResultSerializer.get()) 
24. (directResult, serializedData.limit()) 
和 29% case IndirectTaskResult (blockId, size) => 
和 26 if (!taskSetManager.canFetchMoreResults (size)) { 
275 // 如 果 大 小 超过 maxResultSize， 将 被 Executor 丢弃 
2 sparkEnv.blockManager.master.removeBlock (blockId) 
人 9 return 
3 } 
全 logDebug ("Fetching indirect task result for TID ss" .format (tid)) 
< scheduler.handleTaskGettingResult (taskSetManager, tid) 
名 val serializedTaskResult = sparkEnv .blockManager .getRemoteBytes 
(blockId) 
34. 
355 if (!serializedTaskResult.isDefined) { 
368 /* 如 果 运 行 任务 的 机 器 失败 ， 我 们 将 无 法 获得 任务 结果 
当 任务 结束 ， 我 们 试图 取 结 果 时 ， 块 管理 器 必须 刷新 结果 */ 
ls scheduler .handleFailedTask( 
3 taskSetManager, tid, TaskState.FINISHED, TaskResultLost) 
395 return 
40. 中 
A val deserializedResult = serializer.get() .deserialize 
[DirectTaskResult[_]]( 
42. serializedTaskResult .get.toByteBuffer) 
43. // 反 序列 化 获取 值 
44. deserializedResult.value (taskResultSerializer.get ()) 
45. sparkEnv .blockManager .master.removeBlock (blockId) 
46. (deserializedResult, size) 
47. } 
48. 


49. // 从 Executors 接收 的 累加 器 更 新 中 设置 任务 结果 大 小 , 我 们 需要 在 Driver 上 执行 此 操 
// 作 ， 因 为 如 果 我 们 在 Executors 上 执行 此 操作 ， 那 么 将 结果 更 新 大 小 后 须 进行 序列 化 


50 . result.accumUpdates = result.accumUpdates.map { a => 

Ss if (a.name == Some (InternalAccumulator.RESULT SIZE)) { 

hs val acc = a.asInstanceOf [LongAccumulator] 

5 assert (acc.sum == 0L, "task result size should not have been 

set on the executors") 

二 克 acc.setValue (size.toLong) 

SH acc 

565 } else { 

ST a 

号 bi } 

S59 } 

60 . 

让 下 scheduler .handleSuccessfulTask (taskSetManager, tid, result) 

[2 dg cateb lt 

到 3 case cnf: ClassNotFoundException => 

64. val loader = Thread.currentThread.getContextClassLoader 

[十 订 taskSetManager.abort ("ClassNotFound with classloader: " + 
loader) 

66. // 匹 配 NonFatal， 所 以 我 们 不 从 上 面 的 return 捕获 ControlThrowable 异常 

67. case NonFatal (ex) => 

68. logError ("Exception while getting task result", ex) 

695 taskSetManager.abort ("Exception while getting task result: 
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Ss".format (ex)) 
TO 
TE 
人 人 }) 
J 
TaskResultGetter.scala 的 enqueueSuccessfulTask 方法 中 ， 处 理 成 功 任 务 的 时 候 开 性 了 一 
新 线程 , 先 将 结果 反 序 列 化 , 然后 根据 接收 的 结果 类 型 DirectTaskResult、 IndirectTaskResult 
别处 理 。 
如 果 是 DirectTaskResult， 则 直接 获得 结果 并 返回 。 
如 果 是 IndirectTaskResult， 就 通过 blockManager.getRemoteBytes 远程 获取 。 获 取 以 后 再 
行 反 序列 化 。 
最 后 是 scheduler.handleSuccessfulTask。 
TaskSchedulerImpl 的 handleSuccessfulTask 的 源码 如 下 。 
def handleSuccessfulTask( 
taskSetManager: TaskSetManager, 
Ld Long, 
taskResult: DirectTaskResult[ ]): Unit = synchronized { 


taskSetManager .handleSuccessfulTask (tid, taskResult) 
} 


TaskSchedulerImpl 中 也 有 失败 任务 的 相应 处 理 。 
Spark 2.1.1 版 本 的 TaskSchedulerImpl.scala 的 源码 如 下 。 


ww 


3 def handleFailedTask( 

2 taskSetManager: TaskSetManager, 

3 tid: Long, 

a taskState: TaskState, 

二 reason: TaskFailedReason): Unit = synchronized { 

| 泥 taskSetManager .handleFailedTask (tid, taskState, reason) 
if (ItaskSetManager.isZombie && taskState != TaskState.KILLED) { 
8. // 任 务 集 管理 状态 更 新 后 ， 需 要 再 次 分 配 资源 ， 失 败 的 任务 需要 重新 运行 
9 backend.reviveOffers () 

10. } 

:he 


Spark 2.2.0 版 本 的 TaskSchedulerImpl.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 
段 代码 中 第 7 行 站 语句 判断 条 件 更 新 。 


RE 

if (!taskSetManager.isZombie && !taskSetManager.someAttemptSucceeded 
(tid)) { 

SR 


TaskSchedulerImpl 的 handleSuccessfulTask 交 给 TaskSetManager 调用 handleSuccessfulTask， 
诉 DAGScheduler 任务 处 理 结束 的 状况 ， 并 且 Kill 掉 其 他 尝试 的 相同 任务 (因为 一 个 任务 
经 尝试 成 功 ， 其 他 的 相同 任务 没 必 要 再 次 去 尝试 ) 。 

Spark 2.1.1 版 本 的 TaskSetManager 的 handleSuccessfulTask 的 源码 如 下 。 


上 def handleSuccessfulTask (tid: Long, result: DirectTaskResult[ ]) : Unit 
2 val info = taskInfos (tid) 
3 val index = info.index 


2 
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info.markFinished(TaskState .FINISHED) 
removeRunningTask (tid) 

/*#* 这 种 方法 被 TaskSchedulerImpl.handleSuccessfulTask 调用 ， 其 持 有 Task 
*SchedulerImpl 锁 直至 退出 。 为 了 避免 SPARK-7655 的 问题 ， 当 持 有 一 个 锁 的 时 候 ， 我 
*# 们 不 应 该 反 序 列 化 值 ， 以 避免 阻塞 其 他 线程 。 所 以 ， 我 们 在 TaskResultGetter -enqueue- 
*SuccessfulTask 中 调用 result.value () 。 注 意 : result.value () 只 在 第 一 次 调用 


* 时 反 序 列 化 值 ， 所 以 在 这 里 result.value () 只 是 返回 值 ， 并 不 会 阻止 其 他 线程 
*/ 


sched.dagScheduler .taskEnded (tasks (index), Success, result.value(), 
result.accumUpdates, info) 
// 杀 掉 同一 任务 的 任何 其 他 尝试 “因为 现在 不 需要 这 些 任 务 ， 所 以 一 次 尝试 成 功 ) 
for (attemptInfo <- taskAttempts (index) if attemptInfo.running) { 
logInfo(s"Killing attempt S${attemptInfo.attemptNumber} for task 
${attemptInfo.id} " + 
s"in stage ${taskSet.id} (TID ${attemptInfo.taskId}) on 
${attemptInfo.host} " 十 
s"as the attempt ${info.attemptNumber} succeeded on ${info.host}") 
sched.backend.killTask (attemptInfo.taskId, attemptInfo.executorId, 
true) 
} 
if (!successful (index)) { 
tasksSuccessful += 1 
logInfo(s"Finished task S${info.id} in stage S${taskSet.id} (TID 
${info.taskId}) in" + 
sn ${info.duration} ms on ${info.host} (executor ${info. 
executorId})" + 
s" ($tasksSuccessful/$numTasks)") 
// 如 果 所 有 的 任务 都 成 功 了 ， 就 标记 成 功 并 停止 
successful (index) = true 
if (tasksSuccessful == numTasks) { 
isZombie = true 
} else { 
logInfo("Ignoring task-finished event for " + info.id + " in stage 
"+ taskSset-id + 
" because task " + index + " has already completed successfully") 
} 
maybeFinishTaskSet () 
} 


Spark 2.2.0 版 本 的 TaskSetManager 的 handleSuccessfulTask 的 源码 与 Spark 2.1.1 版 本 相 
比 具 有 如 下 特点 。 


口 
口 





口 


“3 


口 上 段 代 码 中 第 4 行 info.markFinished 新 增 第 2 个 参数 clock.getTimeMillis0) 获 取 时 间 。 


上 段 代 码 
上 上段 代码 
方法 之 前 。 
上 段 代码 


pb 第 4 行 之 后 新 增 直 (speculationEnabled) 的 处 理 代码 。 
ph 第 9 行 sched.dagScheduler.taskEnded 代码 置 后 , 放 到 maybeFinishTaskSetO 





P 第 15 行 sched.backend killTask 的 第 3 个 参数 调整 为 interruptThread = true， 


新 增 第 4 个 参数 reason。 


info.markFinished (TaskState.FINISHED, clock.getTimeMillis()) 
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3 if (speculationEnabled) { 

4. successfulTaskDurations.insert (info.duration) 

5. | 

(FT 

Es interruptThread = true, 

8. reason = "another attempt succeeded") 

Ee 

10E sched.dagScheduler .taskEnded (tasks (index), Success, result.value(), 
result.accumUpdates, info) 

kh 


speculationEnabled 默认 设置 为 spark.speculation=false， 用 于 推测 执行 慢 的 任务 ， 如 果 设 
置 为 tue，successfulTaskDurations 使 用 MedianHeap 记录 成 功 任务 的 持续 时 间 ， 这 样 就 可 以 
确定 什么 时 候 启 动 推测 性 任务 ， 这 种 情况 只 在 启用 推测 时 使 用 ， 以 避免 不 使 用 堆 时 增加 堆 中 
的 开销 。 

TaskSetManager 的 handleSuccessfulTask 中 调用 了 maybeFinishTaskSet。maybeFinishTaskSet 
的 源码 如 下 。 

Spark 2.1.1 版 本 的 TaskSetManager.scala 的 源码 如 下 。 


也 private def maybeFinishTaskSet() { 

2 if (isZombie && runningTasks == 0) { 
世 加 sched.taskSetFinished(this) 

a 

5 } 


Spark 2.2.0 版 本 的 TaskSetManager.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具 有 如 下 特点 :上 
段 代 码 中 第 3 行 之 后 增加 了 tasksSuccessful 一 numTasks 的 逻辑 处 理 。BlacklistTracker 设计 
跟踪 问题 的 Executors 和 nodes。blacklistTracker 循环 遍历 更 新 黑 名 单列 表 。 

Ee (tasksSuccessful == numTasks) { 
blacklistTracker.foreach(_ .updateBlacklistForSuccessfulTaskSet ( 
taskSet .stageId， 


taskSet.stageAttemptId, 
taskSetBlacklistHelperOpt .get .execToFailures)) 


TaskSetManager: 单 TaskSet 的 任务 调度 在 TaskSchedulerImpl 中 进行 。TaskSetManager 

类 跟踪 每 项 任务 ， 如 果 任 务 重 试 失败 (超过 有 限 的 次 数 ) ， 对 于 TaskSet 处 理 本 地 调度 主要 

的 接 口 是 resourceOffer， 询 问 TaskSet 是 否 要 在 一 个 节点 上 运行 任务 ， 进 行 状态 更 新 

statusUpdate， 告 诉 TaskSet 的 一 个 任务 的 状态 发 生 了 改变 (如 已 完成 )。 线 程 这 个 类 被 设 

计 成 只 在 具有 锁 的 代码 TaskScheduler 上 调用 (如 事件 处 理 程序 ) ， 不 应 该 从 其 他 线程 调用 。 
总 结 : 


xD: 

Task 执行 及 结果 处 理 原理 流程 图 如 图 8-3 所 示 。 任 务 从 Driver 上 发 送 过 来 ， 
CoarseGrainedSchedulerBackend 发 送 任务 ，CoarseGrainedExecutorBackend 收 到 任务 后 ， 交 给 
Executor 处 理 ，Executor 会 通过 launchTask 执行 Task。TaskRunner 内 部 会 做 很 多 准备 工作 : 
反 序列 化 Task 的 依赖 , 通过 网 络 获取 需要 的 文件 、Jar、 反 序列 Task 本 身 等 待 ; 然后 调用 Task 
的 mnTask 执行 ，runTask 有 ShuffleMapTask、ResultTask 两 种 。 通 过 iterator() 方 法 根据 业务 
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逻辑 循环 人 遍历， 如 果 是 ShuffleMapTask， 就 把 MapStatus 汇报 给 MapOutTracker; 如 果 是 
ResultTask， 就 从 前 面 的 MapOutTracker 中 获取 信息 。 


ShufneMapTask 在 计算 具体 


Executor 会 通过 TaskRunner 在 
ThreadPool 上 运行 具体 的 Task， 
TaskRunner 内 部 会 做 一 些 准备 







的 Partition 之 后 实际 上 会 通 

过 ShufmeManager 获 得 Shufne 

把 MapStatus 汇 报 给 | Writer 把 当前 Task 计 算 结 果 
DAGScheduler MapOutputTracker | 根据 具体 ShufmeManager 的 


MapOutputTracker 


工作 ; 例如 反 序列 化 Task， 然 
后 通过 网 络 获取 需要 的 文件 、 
Jar 包 等 





送 给 DAGScheduler 





运行 Thread 的 run 方 法 ， 导 致 Task 的 
runTask 被 调用 ， 执 行 具 体 的 业务 
逻辑 处 理 







MapOutputTracker 会 把 
ShufneMapTask 执 行 结 
交 给 ResultTask 


ShufneMafNask 












在 Task 的 runTask 内 部 会 调用 RDD 的 
iterator 方 法 ， 该 方法 就 是 我 们 针对 
当前 Task 对 应 的 Partition 进 行 计算 
的 关键 所 在 ， 在 处 理 的 内 部 会 闪 代 
Partition 的 元 素 并 交 给 我 们 自 定义 
的 function 进 行 处 理 












根据 前 面 Stage 的 执行 结果 
进行 Shufne 产 生 整 个 Job 最 
后 的 结果 






ResultTask 








图 8-3 Task 执行 及 结果 处 理 原理 流程 图 


8.4 ShuffleMapTask 和 ResultTask 处 理 结果 是 如 何 被 Driver 
管理 的 


Spark Job 中 ， 根 据 Task 所 处 Stage 的 位 置 ， 我 们 将 Task 分 为 两 类 : 第 一 类 叫 
shuffleMapTask， 指 Task 所 处 的 Stage 不 是 最 后 一 个 Stage， 也 就 是 Stage 的 计算 结果 还 没有 
输出 ， 而 是 通过 Shuffle 交 给 下 一 个 Stage 使 用 ;第 二 类 叫 resultTask， 指 Task 所 处 Stage 是 
DAG 中 最 后 的 一 个 Stage， 也 就 是 Stage 计算 结果 需要 进行 输出 等 操作 ， 计 算 到 此 为 止 已 经 
结束 。 简 单 地 说 ，Spark Job 中 除了 最 后 一 个 Stage 的 Task 叫 resultTask， 其 他 所 有 Task 都 叫 
ShuffleMapTask。 


8.4.1 ShuffleMapTask 执行 结果 和 Driver 的 交互 原理 及 源码 详解 


Driver 中 的 CoarseGrainedSchedulerBackend 给 CoarseGrainedExecutorBackend 发 送 
launchTasks 消息 ， CoarseGrainedExecutorBackend 收 到 launchTasks 消息 以 后 会 调用 
executor.launchTask。 通 过 launchTask 执行 Task，launchTask 方法 中 根据 传 入 的 参数 : taskId、 
尝试 次 数 、 任 务 名 称 、 序 列 化 后 的 任务 创建 一 个 TaskRunner, 在 threadPool 中 执行 TaskRunner。 
TaskRunner 内 部 会 先 做 一 些 准 备 工作 ， 如 反 序列 化 Task 的 依赖 ， 通 过 网 络 获取 需要 的 文件 、 
Jar 等 ; 然后 调用 反 序列 化 后 的 Task.run 方法 来 执行 任务 并 获得 执行 结果 。 

其 中 ，Task 的 run 方法 调用 的 时 候 会 导致 Task 的 抽象 方法 ranTask 的 调用 ，Task.scala 
的 runTask 方法 是 一 个 抽象 方法 。Task 包括 ResultTask、ShuffleMapTask 两 种 Task， 抽 象 
runTask 方法 具体 的 实现 由 子 类 的 runTask 实现 。ShufleMapTask 的 ranTask 实际 运行 的 时 候 
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会 调用 RDD 的 iterator， 然 后 针对 Partition 进行 计算 。 


ShuffleMapTask.scala 的 源码 如 下 。 


和 override def runTask(context: TaskContext): MapStatus = { 

2 

区 二 val ser = SparkEnv.get.closureSerializer.newInstance() 

4. val (rdd, dep) = ser.deserialize[ (RDD[ ], ShuffleDependency[ ， _， 
dy 

2 

6 Val manager = SparkEnv.get.shuffleManager 

综 writer =manager.getWriter[Any，Rny] (dep.shuffleHandle, partitionId, 

context) 
8 . writer.write (rdd.iterator (partition, context) .asInstanceOf [Iterator 
[ <: Product2[Any, Any]]]) 

9. writer.stop(success = true) .get 

下 

ShuffleMapTask 方法 中 调用 ShufleManager 写 入 器 writer 方法 , 在 write 时 最 终 计算 会 调 


用 RDD 的 compute 方法 。 通 过 writerstop(success = true).get, 如 果 写 入 成 功 , 就 返回 MapStatus 
结果 值 。 


[是 





SortShuffleWriter.scala 的 源码 如 下 。 

1. override def write (records: Iterator [Product2[K，V]]): Unit = { 

ee 

三 全 Val blockId = ShuffleBlockId(dep.shufflelId, mapId, 
IndexShuffleBlockResolver.NOOP REDUCE ID) 

4. val partitionLengths = sorter.writePartitionedFile(blockId, tmp) 

5 shuffleBlockResolver.writeIndexFileAndCommit (daep.shuffleId，mapId, 


partitionLengths, tmp) 


override def stop (success: Boolean): Option[MapStatus] = { 
0 if (success) { 

i return Option (mapStatus) 
省 } else { 

E， return None 

4 

了 

















(1) 如 果 任 务 执行 结果 特别 大 ， 超 过 1GB， 日 志 就 提示 超出 任务 大 小 限制 ， 返 


ser.serialize(new IndirectTaskResult[Any](TaskResultBlockId(taskId), resultSize))。 


Executor.scala 的 源码 如 下 。 


证 if (maxResultSize > 0 && resultSize > maxResultSize) { 


mapStatus = MapStatus (blockManager. shuffleServerId, partitionLengths) 


习 到 TaskRunner 的 run 方法， 把 task.run 执行 结果 通过 resultSer.serialize(value) 序 列 化 ， 


E 成 一 个 directResult。 然 后 根据 大 小 判断 不 同 的 结果 赋值 给 serializedResult， 传 回 给 Driver。 





回 元 数据 


2 logWarning (s"Finished StaskName (TID StaskId) . Result is larger 
than maxResultSize " + s"(${Utils.bytesToString(resultSize)} > 
${Utils.bytesToString (maxResultSize)}), " + s"dropping it.") 


< ser.serialize (new IndirectTaskResult [Any] (TaskResultBlockId 


(taskId), resultSize)) 


(2) 如 果 任 务 执行 结果 小 于 1GB, 大 于 maxDirectResultSize (128MB ) , 就 放 入 blockManager， 
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返回 元 数据 ser.serialize(new IndirectTaskResult[Any](blockId, resultSize))。 
Executor.scala 的 源码 如 下 。 


} else if (resultSize > maxDirectResultSize) { 

Val blockId = TaskResultBlockId (taskId) 

env.blockManager .putBytes( 
blockId, 
new ChunkedByteBuffer (serializedDirectResult.duplicate()), 
StorageLevel .MEMORY AND DISK SER) 

logInfo( 
s"Finished $taskName (TID $taskId). $resultSize bytes result 
sent via BlockManager)") 

LOR ser.serialize (new IndirectTaskResult[Any] (blockId, resultSize)) 


(3) 如 果 任 务 执 行 结果 小 于 128MB， 就 直接 返回 serializedDirectResult。 
Executor.scala 的 源码 如 下 。 


cawm 必 wm 


logInfo(s"Finished $taskName (TID $taskId). $resultSize bytes 
result sent to driver") 
4. serializedDirectResult 


接 下 来 ,TaskRunner 的 run 方法 中 调用 execBackend.statusUpdate(taskId, TaskStateFINISHED， 
serializedResult) 给 Driver 发 送 一 个 消息 ， 消 息 中 将 taskId、TaskState.FINISHED、serializedResult 
传 进去 。 这 里 ，execBackend 是 CoarseGrainedExecutorBackend。 

Executor.scala 的 源码 如 下 。 





override def run(): Unit = { 


execBackend. statusUpdate (taskId, TaskState .FINISHED, serializedResult) 


PAODP 


CoarseGrainedExecutorBackend 的 statusUpdate 方法 的 源码 如 下 。 


i override def statusUpdate (taskId: Long, state: TaskState, data: 
ByteBuffer) { 


和 val msg = StatusUpdate (executorId, tasklId, state, data) 

3 driver match { 

A case Some (driverRef) => driverRef.send (msg) 

SE case None => logWarning(s"Drop $msg because has not yet connected 
to driver") 

后 } 

Ta } 


CoarseGrainedExecutorBackend 给 DriverEndpoint 发 送 StatusUpdate 来 传输 执行 结果 。 
DriverEndpoint 是 一 个 ThreadSafeRpcEndpoint 消息 循环 体 ， 模 式 匹配 收 到 StatusUpdate 消息 ， 调 
] scheduler statusUpdate(taskId, state, datavalue) 方 法 执行 .这 里 的 scheduler 是 TaskSchedulerImpl。 

CoarseGrainedSchedulerBackend.scala 的 DriverEndpoint 的 源码 如 下 。 














i override def receive: PartialFunction[Any, Unit] = { 
3 case StatusUpdate (executorId, taskId, state, data) => 
< scheduler.statusUpdate (taskId, state, data.value) 


DriverEndpoint 会 把 执行 结果 传递 给 TaskSchedulerImpl 处 理 , 交 给 TaskResultGetter 内 部 ， 


“Ge 
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通过 线程 去 分 别处 理 Task 执行 成 功 和 失败 时 的 不 同情 况 ， 然 后 告诉 DAGScheduler 任务 处 理 
结束 的 状况 。 
TaskSchedulerImpl.scala 的 statusUpdate 的 源码 如 下 。 


1. def statusUpdate (tid: Long, state: TaskState, serializedData: ByteBuffer) { 

ee 

人 if (TaskState.isFinished(state)) { 

4. cleanupTaskState (tid) 

Ds taskSet .removeRunningTask (tid) 

看 总 if (state == TaskState.FINISHED) { 

yi taskResultGetter.enqueueSuccessfulTask (taskSet, tid, 
serializedData) 

8 } else if (Set(TaskState.FAILED, TaskState.KILLED, 

TaskState.LOST) .contains (state)) { 

9 taskResultGetter.enqueueFailedTask (taskSet， tid, state, 
serializedData) 

10. 

11。 } 


TaskResultGetter.scala 的 enqueueSuccessfulTask 方法 中 , 开辟 一 条 新 线程 处 理 成 功 任务 ， 
对 结果 进行 相应 的 处 理 后 调用 schedulerhandleSuccessfulTask。 
TaskSchedulerImpl 的 handleSuccessfulTask 的 源码 如 下 。 


def handleSuccessfulTask( 
taskSetManager: TaskSetManager, 
tid: Long, 
taskResult: DirectTaskResult[ ]): Unit = synchronized { 
taskSetManager .handleSuccessfulTask (tid, taskResult) 
} 


anODpPp 


TaskSchedulerImpl 的 handleSuccessfulTask 交 给 TaskSetManager 调用 handleSuccessfulTask。 
TaskSetManager 的 handleSuccessfulTask 的 源码 如 下 。 


: def handleSuccessfulTask (tid: Long, result: DirectTaskResult{[ ]): Unit = { 

23900 3 

所 和 sched.dagScheduler.taskEnded (tasks (index), Success, result.value(), 
result.accumUpdates, info) 

人 

5 


handleSuccessfulTask 方法 中 调用 sched.dagScheduler.taskEnded ， taskEnded 由 
TaskSetManager 调用 ， 汇 报 任务 完成 或 者 失败 。 将 任务 完成 的 事件 CompletionEvent 放 入 
eventProcessLoop 事件 处 理 循环 中 。 

DAGScheduler.scala 的 源码 如 下 。 


def taskEnded( 
task: Task[ ]， 
reason: TaskEndReason, 
result: Any, 
accumUpdates: Seq[AccumulatorV2[ ， ]]， 
taskInfo: TaskInfo) : Unit = { 
eventProcessLoop.post( 
CompletionEvent (task, reason, result, accumUpdates, taskInfo)) 


} 


事件 循环 线程 读 取 消息 ， 并 调用 DAGSchedulerEventProcessLoop.onReceive 方法 进行 


oawm 必 mwN 




















= 361s 


上 篇 ”内 核 解密 








消息 处 理 。 
DAGScheduler.scala 的 源码 如 下 。 


[ee 


onReceive 中 调用 doOnReceive(event) 方 法 ， 模 式 匹 配 到 CompletionEvent， 调 


override def onReceive (event: DAGSchedulerEvent): Unit = { 
val timerContext = timer.time() 
try { 
doOnReceive (event) 
} finally { 
timerContext .stop() 
l 
} 














dagScheduler.handleTaskCompletion 方法 。 
DAGScheduler.scala 的 源码 如 下 。 


orn 


private def doOnReceive (event: DAGSchedulerEvent): Unit = event match { 
case JobSubmitted(jobId, rdd, func, partitions, callSite, listener, 
properties) => 
dagSscheduler .handleJobSubmitted(jobId, rdd, func, partitions, 
callSite, listener, properties) 
case completion: CompletionEvent => 
dagSscheduler .handleTaskCompletion (completion) 


DAGSchedulerhandleTaskCompletion 中 task 执行 成 功 的 情况 ， 根 据 ShufleMapTask 和 
ResultTask 两 种 情况 分 别处 理 。 其 中 ，ShuffleMapTask 将 MapStatus 汇报 给 MapOutTracker。 
Spark 2.1.1 版 本 的 DAGScheduler 的 handleTaskCompletion 的 源码 如 下 。 


private[scheduler] def handleTaskCompletion (event: CompletionEvent) { 
val stage = stageIdToStage (task.stageId) 
evVent .reason match { 
case Success => 
stage.pendingPartitions -= task.partitionId 
task match { 
case smt: ShuffleMapTask => 
val shuffleStage = stage.asInstanceOf [ShuffleMapStage] 
updateAccumulators (event) 
val status = event.result.asInstanceOf [MapStatus] 
val execId = status.location.executorId 
logDebug ("ShuffleMapTask finished on " + execId) 
if (failedEpoch.contains (execId) && smt.epoch <= failedEpoch 
(execId)) { 
logInfo(s"Ignoring possibly bogus S$smt completion from 
executor SexecId") 
} else { 
shuffleStage .addOutputLoc (smt .partitionId, status) 
d 


if (runningStages.contains(shuffleStage) && shufflestage. 
pendingPartitions.isEmpty) { 
markStageAsFinished (shuffleStage) 
logInfo("looking for newly runnable stages") 
logInfo("running: " + runningStages) 
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logInfo("waiting: " + waitingStages) 
logInfo("failed: " + failedStages) 
/** 


* 我 们 设置 为 true， 来 递增 纪元 编号 ， 以 防止 map 输出 重新 计算 。 在 这 种 情 
* 况 下 ， 一 些 节 点 可 能 已 经 缓存 了 损坏 的 位 置 ( 从 我 们 检测 到 的 错误 ) ， 将 需 
* 要 纪元 编号 递增 来 重 取 它 们 。 待 办 事项 : 如 果 这 不 是 第 一 次 ， 那 么 只 增加 纪 
* 元 编号 ， 我 们 注册 了 map 输出 
*/ 

mapOutputTracker.registerMapOutputs( 
shuffleStage.shuffleDep.shufflelId, 
shuffleStage.outputLocInMapOutputTrackerFormat () ， 
changeEpoch = true) 

clearCacheLocs () 

if (!shuffleStage.isAvailable) { 

// 有 些 任务 已 经 失败 了 ， 重 新 提交 shuffleStage 

// 待 办 事项 :低级 调度 器 也 应 该 处 理 这 个 问题 

logInfo("Resubmitting " + shuffleStage + " ("+ 

shuffleStage.name + 
") because some of its tasks had failed: "+ 
shuffleStage.findMissingPartitions() .mkString(", ")) 

submitStage (shuffleStage) 

else { 

// 标 识 任何 map 阶段 的 作业 都 在 这 个 阶段 等 待 完 成 

if (shuffleStage.mapStageJobs.nonEmpty) { 
val stats = mapOutputTracker.getStatistics (shuffleStage. 
shuffleDep) 
for (job <- shuffleStage.mapStageJobs) { 

markMapStageJobAsFinished(job, stats) 


} 
submitWaitingChildStages (shuffleStage) 


Spark 2.2.0 版 本 的 DAGScheduler 的 handleTaskCompletion 的 源码 与 Spark 2.1.1 版 本 相 比 


具有 如 下 特点 。 


口 上 段 代码 中 第 6 行 删 掉 stage.pendingPartitions -= task.partitionId。 

口 上 段 代 码 中 第 14 行 之 后 新 增 让 的 逻辑 判断 ， 如 果 stageIdToStage(task.stageId). 
latestInfo.attemptId 等 于 task.stageAttemptId， 则 执行 shuffleStage.pendingPartitions -= 
task.partitionId。 


卢 


/** 


* 任务 Task 是 当前 stage 正在 尝试 做 的 。 因 为 任务 在 TaskSetManager 下 顺利 完成 ， 寺 


case smt: ShuffleMapTask => 


AE (stageldToStage (task.stageId) .latestInfo.attemptId == 
task.stageAttemptId) { 





性 


* 标记 为 不 再 等 待 TaskSetManager 把 任务 完成 ， 当 任务 的 epoch 较 小 时 ， 需 忽略 输出 。 
* 在 这 种 情况 下 , 挂 起 的 分 区 为 空 时 ， 仍 然 会 丢失 输出 位 置 ， 这 将 导致 DAGScheduler 重新 
* 提交 下 面 的 stage 


#/ 





shuffleStage.pendingPartitions -= task.partitionId 


“3 
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8.4.2 ”ResultTask 执行 结果 与 Driver 的 交互 原理 及 源码 详解 


Task 的 run 方法 调用 的 时 候 会 导致 Task 的 抽象 方法 ranTask 的 调用 ,Task.scala 的 ranTask 
方法 是 一 个 抽象 方法 。Task 包括 ResultTask、ShuffleMapTask 两 种 Task， 抽 象 runTask 方法 
具体 的 实现 由 子 类 的 runTask 实现 。ResultTask 的 runTask 具体 实现 的 源码 如 下 。 

ResultTask.scala 的 runTask 的 源码 如 下 。 














override def runTask (context: TaskContext): U= { 


1 
3. // 反 序列 RDD 和 func 处 理 函 数 
4 val (rdd, func) = ser.deserialize[ (RDD[T], (TaskContext, Iterator[T]) 


> Ul 
e000 
1 func(context, rdd.iterator (partition, context)) 
T= 


而 ResultTask 的 runTask 方法 中 反 序列 化 生成 func 函数 , 最 后 通过 func 函数 计算 出 最 终 
的 结果 。 

ResultTask 执行 结果 与 Driver 的 交互 过 程 同 ShufleMapTask 类 似 ， 最终， 
DAGSchedulerhandleTaskCompletion 中 Task 执行 结果 , 根据 ShuffleMapTask 和 ResultTask 两 
种 情况 分 别处 理 。 其 中 ，ResultTask 的 处 理 结果 如 下 。 

DAGScheduler 的 handleTaskCompletion 的 源码 如 下 。 


es case: Tt: ResultTaskl “I => 

2 // 因 为 是 ResultTask 的 一 部 分 ， 所 以 对 应 为 Resultstage 

:人 // 待 办 事宜 : 这 一 功能 进行 重 构 ， 接 受 ResultStage 

4. val resultStage = stage.asInstanceOf [ResultStage] 

Ge resultStage.activeJob match { 

6 case Some (job) => 

和 全 if (!job.finished(rt.outputId)) { 

由 已 updateAccumulators (event) 

:站 job.finished(rt.outputId) = true 

10. job.numFinished += 1 

TE // 如 果 整 个 作业 完成 ， 就 删除 

者 2 if (job.numFinished == job.numPartitions) { 

省 汉语 markStageAsFinished (resultStage) 

14. cleanupStateForJobAndIndependentStages (job) 

5 listenerBus.post( 

16. SparkListenerJobEnd (job.jobId, clock.getTimeMil]lis(), 
JobSucceeded)) 

于 } 

8 

P98 //taskSucceeded 运行 用 户 代码 可 能 会 抛 出 一 个 异常 

1 try { 

之 和 = job.listener.taskSucceeded (rt .outputId, event.result) 

2 Fy catch 

Be Case e: Exception => 

二 // 待 办 事项 : 可 能 我 们 要 标记 resultStage 失败 ? 

3 job.listener.jobFailed (new SparkDriverExecution-— 

Exception (e) ) 
26 . } 
ZT } 


“a 
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28 . case None => 

29. logInfo("Ignoring result from "+ rt+" because its job has 
finished") 

S05 } 


Driver 端的 DAGScheduler 的 MapOutputTracker 把 shuffleMapTask 执行 的 结果 交 给 
ResultTask，ResultTask 根据 前 面 Stage 的 执行 结果 进行 shuffle 后 产生 整个 Job 最 后 的 结果 。 





二 


第 9 章 Spark 中 Cache 和 checkpoint 原理 
和 源码 详解 


本 章 讲 解 Spark 中 Cache 和 checkpoint 原理 和 源码 。9.1 节 讲 解 Spark 中 Cache 原理 和 源 
码 ，CacheManager 管理 缓存 ， 缓 存 可 基于 内 存 或 者 磁盘。CacheManager 通过 BlockManager 
来 操作 数据 ;9.2 节 对 Spark 中 checkpoint 原理 和 源码 进行 详解 。Spark 在 生产 环境 下 ， 如 果 
Tranformations 的 RDD 非常 多 或 者 具体 Tranformation 产生 的 RDD 本 身 计算 特别 复杂 和 耗 时 ， 
我 们 就 可 以 通过 checkpoint 对 计算 结果 数据 进行 持久 化 。 


9.1 Spark 中 Cache 原理 和 源码 详解 


本 节 对 Spark 中 Cache 原理 及 Spark 中 Cache 源码 进行 详解 。 
9.1.1 Spark 中 Cache 原理 详解 


Spark 中 Cache 机 制 原理 : 首先 ，RDD 是 通过 iterator 进行 计算 的 。 

(1) CacheManager 会 通过 BlockManager 从 Local 或 者 Remote 获取 数据 直接 通过 RDD 
的 compute 进行 计算 ， 有 可 能 需要 考虑 checkpoint。 

(2) 通过 BlockManager 首先 从 本 地 获取 数据 ， 如 果 得 不 到 数据 ， 就 会 从 远程 获取 数据 。 


checkpoint 的 数据 ， 否 则 必须 进行 计算 ; 因为 此 时 RDD 需要 缓存 ， 所 以 计算 如 果 需 要 ， 则 
通过 BlockManager 再 次 进行 持久 化 。 

(4) 如 果 持 久 化 的 时 候 只 是 缓存 到 磁盘 中 ， 就 直接 使 用 BlockManager 的 doPut 方法 写 入 
厂 盘 〈 需 要 考虑 Replication )。 

(5) 如 果 指 定 内 存 作 缓存 ， 优 先 保存 到 内 存 中 ， 此 时 会 使 用 MemoryStore.unrollSafely 方 
法 来 尝试 安全 地 将 数据 保存 在 内 存 中 ， 如 果 内 存 不 够 ， 会 使 用 一 个 方法 来 整理 一 部 分 内 存 空 
间 ， 然 后 基于 整理 出 来 的 内 存 空间 放 入 我 们 想 缓存 的 最 新 数据 。 

(6) 直接 通过 RDD 的 compute 进行 计算 ， 有 可 能 需要 考虑 checkpoint。 

Spark 中 ，Cache 原理 示意 图 如 图 9-1 所 示 。 


9.1.2 ”Spark 中 Cache 源码 详解 
CacheManager 管理 是 缓存 ， 而 缓存 可 以 是 基于 内 存 的 缓存 ， 也 可 以 是 基于 磁盘 的 缓存 。 


CacheManager 需要 通过 BlockManager 来 操作 数据 。 
Task 发 生计 算 时 要 调用 RDD 的 compute 进行 计算 。 下 面 看 一 下 MapPartitionsRDD 的 
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compute 方法 。 









缓存 :M/D/T 
cacheManager 会 通 
过 BlockManager 从 
Local 或 者 Remote 获 
皮 数 据 













成 功 获取 陋 过 BlockManager 首 先 从 
缓存 数据 










没有 直接 获取 
到 缓存 的 数据 


2 . 如 果 持 久 化 的 时 候 只 是 如 果 指定 了 内 存 作 缓 在 ， 就 优 
考虑 checkpoint 缓存 到 磁盘 中 ， 就 直接 先 保存 到 内 存 中 。 此 时 会 使 用 
使 用 BlockManager 的 do MemoryStore 的 unrollSafely 方 
Put 方 法 写 入 磁盘 〈 需 要 法 安全 地 将 数据 保存 在 
务虚 Replication) 内 如 果 内 存 不 够 ， 使 用 
方法 整理 出 一 分 门生 人 

来 ， 然 后 基于 整 


图 9-1 Cache 原理 示意 图 


MapPartitionsRDD 的 源码 如 下 。 


1. private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag] ( 

到 志 Var prev: RDDI[T], 

入 3 f: (TaskContext， Int, Iterator[T]) => Iterator[U]， // (TaskContext， 

partition index, iterator) 

4. preservesPartitioning: Boolean = false) 

5 extends RDD[U] (prev) { 

6 

Wi override val partitioner = if (preservesPartitioning) firstParent[T]. 
partitioner else None 

局 

9. override def getPartitions: Array[Partition] = firstParent[T] . 
partitions 

Qs 

sh override def compute(split: Partition, context: TaskContext): 
Iterator [U] = 

二 f(context, split.index, firstParent[T].iterator(split, context)) 

话语 

Ei 中 override def clearDependencies() { 

15. super.clearDependencies () 

LT6% prev = null 

47 } 

LO 


compute 真正 计算 的 时 候 通 过 iterator 计算 ，MapPartitionsRDD 的 iterator 依赖 父 RDD 计 
算 。iterator 是 RDD 内 部 的 方法 ， 如 有 缓存 ， 将 从 缓存 中 读 取 数 据 ， 否 则 进行 计算 。 这 不 是 
被 用 户 直接 调用 ， 但 可 用 于 实现 自 定义 子 RDD。 

RDD.scala 的 iterator 方法 如 下 。 


final def iterator (split: Partition, context: TaskContext): Iterator[T] = { 


而 二 if (storageLevel != StorageLevel.NONE) { 
Ke getOrCompute (split, context) 
fe } else { 


3s 
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“得 computeOrReadCheckpoint (split, context) 

7 } 

De } 

RDD.scala 的 iterator 方法 中 判断 storageLevel != StorageLevel.NONE, 说 明 数 据 可 能 存放 
在 内 存 、 磁 盘 中 ， 调 用 getOrCompute(split, context) 方 法 。 如 果 之 前 计算 过 一 次 ， 再 次 计算 可 
以 找 CacheManager 要 数据 。 

RDD.scala 的 getOrCompute 的 源码 如 下 。 





1. private[spark] def getOrCompute (Partition: Partition, context: 
TaskContext): Iterator[T] = { 


六 val blockId = RDDBlockId (id, partition.index) 

人 Var readCachedBlock = true 

4. // 这 种 方法 被 Executors 调用 ， 所 以 我 们 需要 调用 SparkEnv .get 代替 sc.env 

1 SparkEnv.get .blockManager .getOrElseUpdate (blockId, storageLevel, 

elementClassTag, () => { 

和 到 readCachedBlock = false 

Vs computeOrReadCheckpoint (partition, context) 

8 }) match { 

略 case Left (blockResult) => 

10. if (readCachedBlock) { 

Fh val existingMetrics = context.taskMetrics () .inputMetrics 

2s existingMetrics.incBytesRead (blockResult .bytes) 

3 new InterruptibleIterator[T] (context, blockResult.data. 
asInstanceOf [Iterator[T]]) { 

a override def next(): T= 1{ 

existingMetrics.incRecordsRead(1) 

16. delegate.next () 

Le } 

LO } 

Le } else { 

20. new InterruptibleIterator (context, blockResult.data.asInstanceOf 
[Iterator [T]]) 

21- 1) 

4 case Right (Iter) => 

3 new InterruptibleIterator (context, iter.asInstanceOf[Iterator[T]]) 

24. } 

252 


在 有 缓存 的 情况 下 ， 缓 存 可 能 基于 内 存 ， 也 可 能 基于 磁盘 ，getOrCompnute 获取 缓存 ; 如 
没有 缓存 ， 则 需 重新 计算 RDD。 为 何 需要 重新 计算 ? 如 果 数 据 放 在 内 存 中 ， 假 设 缓存 了 100 
万 个 数据 分 片 ， 下 一 个 步骤 计算 的 时 候 需 要 内 存 ， 因 为 需要 进行 计算 的 内 存 空 间 占 用 比 之 前 
缓存 的 数据 占用 内 存 空间 重要 ， 假 设 须 腾 出 10000 个 数据 分 片 所 在 的 空间 ， 因 此 从 
BlockManager 中 将 内 存 中 的 缓存 数据 drop 到 磁盘 上 ， 如 果 不 是 内 存 和 磁盘 的 存储 级 别 ， 那 
10000 个 数据 分 片 的 缓存 数据 就 可 能 丢失 ，99 万 个 数据 分 片 可 以 复 用 ， 而 这 10000 个 数据 分 
片 须 重新 进行 计算 。 

Cache 在 工作 的 时 候 会 最 大 化 地 保留 数据 ， 但 是 数据 不 一 定 绝 对 完整 ， 因 为 当前 的 计算 
如 果 需 要 内 存 空间 ， 那 么 Cache 在 内 存 中 的 数据 必须 让 出 空间 ， 此 时 如 何在 RDD 持久 化 的 
时 候 同时 指定 可 以 把 数据 放 在 Disk 上 ,那么 部 分 Cache 的 数据 就 可 以 从 内 存 转 入 磁盘 ,否则 

getOrCompute 方法 返回 的 是 Iterator。 进 行 Cache 以 后 ，BlockManager 对 其 进行 管理 ， 
通过 blockId 可 以 获得 曾经 缓存 的 数据 。 具 体 CacheManager 在 获得 缓存 数据 的 时 候 会 通过 
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BlockManager 来 抓 到 数据 。 
getOrElseUpdate 方法 中 ， 如 果 block 存在 ,检索 给 定 的 块 block; 如 果 不 存在 ， 则 调用 提 
供 makeIterator 方法 计算 块 block， 对 块 block 进行 持久 化 ， 并 返回 block 的 值 。 
BlockManager.scala 的 getOrElseUpdate 的 源码 如 下 。 





def getOrElseUpdate[T] ( 
blockId: BlockId, 
level: StorageLevel, 
classTag: ClassTag[T], 


makeIterator: () => Iterator[T]): Either[BlockResult, Iterator[T]] = { 
// 尝 试 从 本 地 或 远程 存储 读 取 块 。 如 果 它 存在 ， 那 么 我 们 就 不 需要 通过 本 地 get 或 put 路 
// 径 获取 


get [T] (blockId) (classTag) match { 
case Some (block) => 
return Left (block) 
case => 


// 需 要 计算 块 


} 
// 需 要 计算 blockInitial1y， 在 块 上 我 们 没有 锁 
doPutIterator (blockId, makelIterator, level, classTag, keepReadLock = 
true) match { 
case None' => 
//doput () 方法 没有 返回 ， 所 以 块 已 存在 或 者 已 成 功 存储 。 因此， 我们 现在 在 块 上 持 有 
// 读 取 锁 
val blockResult = getLocalValues (blockId) .getOrElse { 
// 在 doPut () 和 get () 方 法 调用 的 时 候 ， 我 们 持 有 读 取 锁 ， 块 不 应 被 驱逐 ， 这 样 ，get () 
// 方 法 没 返回 块 ， 表 示 发 生 一 些 内 部 错误 
releaseLock (blockId) 
throw new SparkException (s"get() failed for block $blockId even 
though we held a lock") 


} 
// 我 们 已 经 持 有 调用 doPut () 方法 在 块 上 的 读 取 锁 ，getLocalValues () 再 一 次 获取 锁 ， 
// 所 以 我 们 需要 调用 releaseLock (), 这 样 获 取 锁 的 数量 是 1 (因为 调用 者 只 release () 一 次 ) 
releaseLock (blockId) 
Left (blockResult) 
case Some (iter) => 
// 输 入 失败 ， 可 能 是 因为 数据 太 大 而 不 能 存储 在 内 存 中 ， 不 能 溢出 到 磁盘 上 。 因 此 ， 我 们 需 
// 要 将 输入 和 迭代 器 传递 给 调用 者 ， 他 们 可 以 决定 如 何 处 理 这些 值 例如， 不 缓存 它们 ) 
Right (iter) 
} 
} 


BlockManager.scala 的 getOrElseUpdate 中 根据 blockId 调用 了 get[T](blockId) 方 法 ，get 
方法 从 block 块 管理 器 〈 本 地 或 远程 ) 获取 一 个 块 block。 如 果 块 在 本 地 存储 且 没 获取 锁 ， 则 
先 获取 块 block 的 读 取 锁 。 如 果 该 块 是 从 远程 块 管理 器 获取 的 ， 当 data 迭代 器 被 完全 消费 以 
后 ， 那 么 读 取 锁 将 自动 释放 。sget 的 时 候 ， 如 果 本 地 有 数据 ， 从 本 地 获取 数据 返回 : 如 果 没 有 
数据 ， 则 从 远程 节点 获取 数据 。 

BlockManager .scala 的 get 方法 的 源码 如 下 : 


pODP 


def get[T: ClassTag] (blockId: BlockId) : Option[BlockResult] = { 
val local = getLocalValues (blockId) 
if (local.isDefined) { 
logInfo(s"Found block $blockId locally") 
return local 


=. 
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6. 上 

WA val remote = getRemoteValues [T] (blockId) 
8 if (remote.isDefined) { 

95 logInfo(s"Found block $blockId remotely") 
10. return remote 

了 二 } 

2 None 

LS } 


BlockManager 的 get 方 法 从 Local 的 角度 讲 , 如 果 数 据 在 本 地 , get 方 法 调用 getLocalValues 
获取 数据 。 如 果 数 据 在 内 存 中 (level.useMemory 日 memoryStore 包含 了 blockId) ， 则 从 
memoryStore 中 获取 数据 ; 如 果 数 据 在 磁盘 中 (level.useDisk 日 diskStore 包含 了 blockId) ， 
则 从 diskStore 中 获取 数据 。 这 说 明 数 据 在 本 地 缓存 ， 可 以 在 内 存 中 ， 也 可 以 在 磁盘 上 。 

BlockManager 的 get 方法 从 remote 的 角度 讲 ，get 方法 中 将 调用 getRemoteValues 方法 。 

BlockManager.Scala 的 getRemoteValues 的 源码 如 下 。 


dE private def getRemoteValues[T: ClassTag] (blockId: BlockId): Option 
[BlockResult] = { 

2 val ct = implicitly[ClassTag[T]] 

< getRemoteBytes (blockId) .map { data => 

中 val values = 

5 serializerManager.dataDeserializeStream(blockId, data.toInputStream 

(dispose = true)) (ct) 

6- new BlockResult (values, DataReadMethod.Network, data.size) 

YE } 

8 } 


getRemoteValues 方法 中 调用 getRemoteBytes 方法 , 通过 blockTransferService.fetchBlockSync 
从 远程 节点 获取 数据 。 
BlockManager.Scala 的 getRemoteBytes 的 源码 如 下 。 


eR def getRemoteBytes (blockId: BlockId) : Option[ChunkedByteBuffer] = { 
2 logDebug (s"Getting remote block $blockId") 

< require(blockId != null, "BlockId is null") 

4. var runningFailureCount = 0 

5 var totalFailureCount = 0 

6 val locations = getLocations (blockId) 

了 : val maxFetchFailures = locations.size 

Bs var locationIterator = locations.iterator 


罗 while (locationIterator.hasNext) { 

10 val loc = locationIterator .next () 

i logDebug (s"Getting remote block $blockId from $loc") 

证 人 2 三 val data = try { 

23 blockTransferService.fetchBlockSync( 

E loc.host, loc.port, loc.executorId, blockId.toString) .nioByteBuffer () 
A FF cateh { 

16. case NonFatal (e) => 

7 runningFailureCount += 1 

18: totalFailureCount += 1 

了 

20E if (totalFailureCount >= maxFetchFailures) { 

21. /7 放弃 尝试 的 位 置 .要 么 我 们 已 经 尝试 了 所 有 的 原始 位 置 ,或 者 我 们 已 经 从 master 


// 节 点 刷新 了 位 置 列表 , 并 且 仍然 在 刷新 列表 中 尝试 位 置 后 命中 失败 logWarning 
//(s"Failed to fetch block after StotalFailureCount fetch failures."+ 
//s"Most recent failure cause:", e) 
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return None 


logWarning(s"Failed to fetch remote block $blockId " + 
s"from $loc (failed attempt S$runningFailureCount)", e) 


// 如 果 有 大 量 的 Executors， 那 么 位 置 列表 可 以 包含 一 个 旧 的 条 目 造成 大 量 重 试 ， 可 能 花 
// 费 大 量 的 时 间 。 在 一 定数 量 的 获取 失败 之 后 ， 为 去 掉 这 些 旧 的 条 目 ， 我 们 刷新 块 位 置 
if (runningFailureCount >= maxFailuresBeforeLocationRefresh) { 
locationIterator = getLocations (blockId) .iterator 
logDebug (s"Refreshed locations from the driver " + 
s"after ${runningFailureCount} fetch failures.") 
runningFailureCount = 0 


有 
// 此 位 置 失败 ， 所 以 我 们 尝试 从 不 同 的 位 置 获取 ， 这 里 返回 一 个 nul1 


if (data != null) { 
return Some (new ChunkedByteBuffer (data)) 
} 
logDebug(s"The value of block $blockId is null") 


} 
logDebug (s"Block $blockId not found") 
None 


} 


BlockManager 的 get 方法 ， 如 果 本 地 有 数据 ,， 则 从 本 地 获取 数据 返回 ; 如 果 远 程 有 数据 ， 
则 从 远程 获取 数据 返回 :如 果 都 没有 数据 ， 就 返回 None 。get 方法 的 返回 类 型 是 
Option[BlockResult], Option 的 结果 分 为 两 种 情况 :GD 如 果 有 内 容 , 则 返回 Some[BlockResult; 
@ 如 果 没 有 内 容 ， 则 返回 None。 这 是 Option 的 基础 语法 。 

Option.scala 的 源码 如 下 。 


时 











sealed abstract class Option[+A] extends Product with Serializable { 
self => 


final case class Some[+A] (x: A) extends Option[A] { 


def isEmpty = false 
def get = x 


. Case object None extends Option [Nothing] { 


def isEmpty = true 
def get = throw new NoSuchElementException("None.get") 


到 BlockManager 的 getOrElseUpdate 方法 ， 从 get 方法 返回 的 结果 进行 模式 匹配 ， 如 





果 有 数据 ， 则 对 Some(block) 返 回 Left(block)， 这 是 获取 到 block 的 情况 ， 如 果 没 数据 ， 则 是 
None， 须 计算 block。 








回 到 RDD.scala 的 getOrCompute 方法 ， 在 getOrCompute 方法 中 调用 SparkEnv.get. 


blockManager.getOrElseUpdate 方法 时 ， 传 入 blockId、storageLevel、elementClassTag， 其 中 
第 四 个 参数 是 一 个 匿名 函数 ， 在 匿名 函数 中 调用 了 computeOrReadCheckpoint(partition, 


二 二 
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context)。 然 后 在 getOrElseUpdate 方法 中 ,根据 blockId 获取 数据 ,如 果 获 取 到 缓存 数据 ， 就 返回 ; 





如 果 没 有 数据 ， 就 调用 doPutIterator(blockId, makeIterator, level classTag, keepReadLock = true) 进 行 
计算 ，doPutIterator 其 中 第 二 个 参数 makeIterator 就 是 getOrElseUpdate 方法 中 传 入 的 匿名 函数 ， 
在 匿名 函数 中 获取 到 Iterator 数据 。 

RDD.getOrCompute 中 computeOrReadCheckpoint 方法 ， 如果 RDD 进行 了 checkpoint， 则 


从 父 RDD 的 iterator 中 直接 获取 数据 ; 或 者 没有 Checkpoint 物化 ， 见 








新 计算 RDD 的 数据 。 


RDD.scala 的 computeOrReadCheckpoint 的 源码 如 下 。 


1 


co vawm 必 ww 


private[spark] def computeOrReadCheckpoint (split: Partition, context: 
TaskContext): Iterator[T] = 
{ 
if (isCheckpointedAndMaterialized) { 
firstParent [T] .iterator (split, context) 
} else { 
compute (split, context) 
} 
} 


BlockManager.scala 的 getOrElseUpdate 方法 中 如 果 根 据 blockID 没有 获取 到 本 地 数据 ， 
则 调用 doPutIterator 将 通过 BlockManager 再 次 进行 持久 化 。 
BlockManager.scala 的 getOrElseUpdate 方法 的 源码 如 下 。 


和 
之 
= 
4. 
6 


def getOrElseUpdate[T] ( 


blockId: BlockId, 
level: StorageLevel, 
classTag: ClassTag[T], 
makeIterator: () => Iterator[T]): Either[BlockResult, Iterator[T]] = { 
// 尝 试 从 本 地 或 远程 存储 读 取 块 。 如 果 它 存在 ， 那 么 我 们 就 不 需要 通过 本 地 GET 或 PUT 路 
// 径 获取 
get [T] (blockId) (classTag) match { 
case Some(block) => 
return Left (block) 
case => 
//Need to compute the block. 
} 
// 起 初 我 们 不 锁 这 个 块 
doPutIterator (blockId, makeIterator, level, classTag, keepReadLock = 
true) match { 


BlockManager.scala 的 getOrElseUpdate 方法 中 调用 了 doPutIterator。doPutIterator 将 
ImakeIterator 从 父 RDD 的 checkpoint 读 取 的 数据 或 者 重新 计算 的 数据 存放 到 内 存 中 ， 如 果 内 
存 不 够 ， 就 溢出 到 磁盘 中 持久 化 。 

Spark 2.1.1 版 本 的 BlockManager.scala 的 doPutIterator 方法 的 源码 如 下 。 


co ~awm 心 wm 


“le 





private def doPutIterator[T] ( 

blockId: BlockId, 

iterator: () => Iterator[T], 

level: StorageLevel, 

classTag: ClassTag[T], 

tellMaster: Boolean = true, 

keepReadLock: Boolean = false): Option[PartiallyUnrolledIterator[T]]={ 
doPut (blockId, level, classTag, tellMaster = tellMaster, keepReadLock 
= keepReadLock) { info => 
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9. val startTimeMs = System.currentTimeMillis 
05 Var iteratorFromFailedMemoryStorePut: Option[PartiallyUnrolledIterator 
[T]] = None 

is // 块 的 大 小 为 字 节 

2 Var size = 0L 

135 if (level.useMemory) { 

a / /首先 把 它 放 在 内 存 中 ， 即 使 useDisk 设置 为 true; 如 果 内 存 存储 不 能 保存 ， 我 们 

// 稍 后 会 把 它 放 在 磁盘 上 

5 if (level.deserialized) { 

了 65 memoryStore.putIteratorAsValues (blockId, iterator(), classTag) 
match { 

林村 case Right (s) => 

| : 思 size = S 

EE case Left (iter) => 

208 // 没 有 足够 的 空间 来 展开 块 ， 如 果 适 用 ， 可 以 溢出 到 磁盘 

4 if (level.useDisk) { 

2 logWarning(s"Persisting block $blockId to disk instead.") 

和 央 diskStore.Put (blockId) { fileOutputStream => 

24. serializerManager.dataSerializeStream(blockId, 

fileOutputStream, iter) (classTag) 

2 } 

2 size = diskStore.getSize (blockId) 

i } else { 

28. iteratorFromFailedMemoryStorePut = Some (iter) 

295 } 

30. } 

本 } else { //!level.deserialized 

32 memoryStore.putIteratorAsBytes (blockId, iterator () ， classTag, 
level.memoryMode) match { 

335 case Right(s) => 

34. size = S 

| 周 case Left (partiallySerializedValues) => 

368 // 没 有 足够 的 空间 来 展开 块 ， 如 果 适 用 ， 可 以 溢出 到 磁盘 

STs if (level.useDisk) { 

38- logWarning(s"Persisting block $blockId to disk instead.") 

39 . diskStore.Put (blockId) { fileOutputStream => 

40 . partiallySerializedValues .finishWritingToStream 

(fileOutputStream) 

41. } 

二 2 size = diskStore.getSize (blockId) 

43. } else { 

44. iteratorFromFailedMemoryStorePut = Some 

(partiallySerializedValues. valuesIterator) 

45. } 

46 . } 

47. } 

48. 

49. } else if (level.useDisk) { 

G1 diskStore.put(blockId) { fileOutputStream => 

四 serializerManager.dataSerializeStream(blockId, fileOutputStream, 
Iterator () ) (classTag) 

S52 于 

5 size = diskStore.getSize (blockId) 

54. | 

SS 

1 val putBlockStatus = getCurrentBlockStatus (blockId, info) 

J val blockWasSuccessfullyStored = putBlockStatus.storageLevel .isValid 

Sa if (blockWasSuccessfullyStored) { 

59. // 现 在 块 位 于 内 存 或 磁盘 存储 中 ， 通 知 master 
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info.size = size 
if (tellMaster && info.tellMaster) { 
reportBlockStatus (blockId, putBlockStatus) 
addUpdatedBlockStatusToTaskMetrics (blockId, putBlockStatus) 
logDebug("Put block ss locally took %s".format (blockId, Utils. 
getUsedTimeMs (startTimeMs))) 
if (level.replication > 1) { 
val remoteStartTime = System.currentTimeMillis 
val bytesToReplicate = doGetLocalBytes (blockId, info) 
// [SPARK-16550] 使 用 默认 的 序列 化 时 擦 除 classTag 类 型 ， 当 反 序 列 化 类 时 
//NettyBlockRpcServer 骨 溃 。 待 办 事项 CEKL) 删除 远程 节点 类 装载 器 的 问题 
// 已 经 修复 val remoteClassTag = if (!serializerManager.canUseKryo 
//(classTag)) { 
scala.reflect.classTag[Any] 
} else { 
classTag 
} 
Ey 
replicate (blockId, bytesToReplicate, level, remoteClassTag) 
} finally { 
bytesToReplicate .unmap() 
} 
logDebug ("Put block %s remotely took %s" 
.format (blockId, Utils.getUsedTimeMs (remoteStartTime))) 
} 
} 
assert (blockWasSuccessfullyStored == iteratorFromFailedMemoryStorePut. 
isEmpty) 
iteratorFromFailedMemoryStorePut 
} 
} 


Spark 2.2.0 版 本 的 BlockManager.scala 的 doPutIterator 方法 的 源码 与 Spark 2.1.1 版 本 相 比 
具有 如 下 特点 。 


口 口 


上 段 代 码 中 第 23、39、50 行 fleOutputStream 的 名 称 更 新 为 channel。 
上 段 代 码 中 第 23、39、50 行 之 后 新 增加 一 行 代码 val out = Channels.newOutputStream 
(channel) 。 


上 上 段 代码 中 第 24、51 行 serializerManager.dataSerializeStream 的 第 2 个 参数 调整 为 out。 
上 段 代 码 中 第 40 行 fleOutputStream 参数 调整 为 out。 
上 段 代 码 中 第 77 行 bytesToReplicate unmap() 方 法 调整 为 bytesToReplicate.dispose()。 


diskStore.put (blockId) { channel => 
val out = Channels.newOutputstream(channel) 
serializerManager.dataSerializeStream(blockId, out, iter) 
(classTag) 
上 
diskStore.put (blockId) { channel => 
val out = Channels.newOutputSstream(channel) 
partiallySerializedValues.finishWritingToStream(out) 
diskStore-put (blockId) { channel => 
val out = Channels.newOutputSstream(channel) 
serializerManager.dataSerializeStream(blockId, out, iterator() 
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(classTag) 
14. : 
9a 
16. bytesToReplicate.dispose() 
by 


9.2 ”Spark 中 checkpoint 原理 和 源码 详解 


本 节 对 Spark 中 checkpoint 原理 及 Spark 中 checkpoint 源码 进行 详解 。 
9.2.1 Spark 中 checkpoint 原理 详解 


checkpoint 到 底 是 什么 ? 
(1) Spark 在 生产 环境 下 经 常会 面临 Tranformations 的 RDD 非常 多 (例如 ， 一 个 Job 中 
J 含 10 000 个 RDD) 或 者 具体 Tranformation 产生 的 RDD 本 身 计算 特别 复杂 和 耗 时 〔 例 如， 
计算 时 常 超过 1h) ， 此 时 我 们 必须 考虑 对 计算 结果 数据 的 持久 化 。 

(2) Spark 擅长 多 步 又 迭代 ,同时 擅长 基于 Job 的 复 用 ,这 时 如 果 能 够 对 曾经 计算 的 过 程 
产生 的 数据 进行 复 用 ， 就 可 以 极 大 地 提升 效率 。 

(3) 如 果 采 用 persist 把 数据 放 在 内 存 中 ， 虽 然 是 最 快速 的 ， 但 是 也 是 最 不 可 靠 的 。 如 果 
放 在 磁盘 上 ， 也 不 是 完全 可 靠 的 。 例 如 ， 磁 盘 会 损坏 ， 管 理 员 可 能 清空 磁盘 等 。 

(4) checkpoint 的 产生 就 是 为 了 相对 更 加 可 靠 地 持久 化 数据 ，checkpoint 可 以 指定 把 数据 
放 在 本 地 并 且 是 多 副本 的 方式 ， 但 是 在 正常 的 生产 情况 下 是 放 在 HDFS， 这 就 自然 地 借助 
HDFS 高 容错 、 高 可 靠 的 特征 完成 了 最 大 化 的 、 可 靠 的 持久 化 数据 的 方式 。 

(5) 为 确保 RDD 复 用 计算 的 可 靠 性 ，checkpoint 把 数据 持久 化 到 HDFS 中 ， 保 证 数据 最 
大 程度 的 安全 性 。 

(6) checkpoint 就 是 针对 整个 RDD 计算 链条 中 特别 需要 数据 持久 化 的 环节 (后 面 会 反复 
使 用 当前 环节 的 RDD ) 开 始 基于 HDFS 等 的 数据 持久 化 复 用 策略 ,通过 对 RDD 启动 checkpoint 
机 制 来 实现 容错 和 高 可 用 。 


9.2.2 ”Spark 中 checkpoint 源码 详解 


1. checkpoint 的 运行 原理 和 源码 实现 彻底 详解 


RDD 进行 计算 前 须 先 看 一 下 是 否 有 checkpoint， 如 果 有 checkpoint， 就 不 需要 再 进行 计算 了 。 
RDD.scala 的 iterator 方法 的 源码 如 下 。 


es final def iterator(split: Partition, context: TaskContext) : 
Iterator[T] = { 
if (storageLevel != StorageLevel.NONE) { 
getOrCompute (split, context) 
} else { 
computeOrReadCheckpoint (split, context) 
} 
} 





AMAON 
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进入 RDD.scala 的 getOrCompute 方法 ， 源 码 如 下 。 


1. private[spark] def getOrCompute (partition: Partition, context: TaskContext) : 
Iterator[T] = { 
2 val blockId = RDDBlockId (id, partition.index) 
攻打 Var readCachedBlock = true 
坟 // 这 种 方法 被 Executors 调用 ， 所 以 我 们 需要 调用 SparkEnv .get 代替 sc .env 
上 SparkEnv .get .blockManager .getOrElseUpdate (blockId， storageLevel, 
elementClassTag, () => { 
readCachedBlock = false 
computeOrReadCheckpoint (partition, context) 
}) match { 


getOrCompnute 方法 的 getOrElseUpdate 方法 传 入 的 第 四 个 参数 是 匿名 函数 ， 调 用 
computeOrReadCheckpoint(partition, context) 检 查 checkpoint 中 是 否 有 数据 。 
RDD.scala 的 computeOrReadCheckpoint 的 源码 如 下 。 


co ~ en 


: 属 private[spark] def computeOrReadCheckpoint (split: Partition, 
context: TaskContext): Iterator[T] = 
{ 
if (isCheckpointedAndMaterialized) { 
firstParent[T] .iterator (split, context) 
} else { 
compute (split, context) 


cawm 必 wwN 


1 


computeOrReadCheckpoint 方法 中 的 isCheckpointedAndMaterialized 是 一 个 布尔 值 ， 判 断 
这 个 RDD 是 否 checkpointed 和 被 物化 ，Spark 2.0 checkpoint 中 有 两 种 方式 reliably 或 者 
locally。computeOrReadCheckpoint 作为 isCheckpointed 语义 的 别名 返回 值 。 

isCheckpointedAndMaterialized 方法 的 源码 如 下 。 


: private[spark] def isCheckpointedAndMaterialized: Boolean = 
2 checkpointData.exists(_ .isCheckpointed) 














习 到 RDD.scala 的 computeOrReadCheckpoint， 如 果 已 经 持久 化 及 物化 isCheckpointed- 
AndMaterialized， 就 调用 firstParent[T] 的 iterator。 如 果 没 有 持久 化 ， 则 进行 compute。 


2. checkpoint 原 理 机 制 


(1) 通过 调用 SparkContext.setCheckpointDir 方法 指定 进行 checkpoint 操作 的 RDD 把 数 
据 放 在 哪里 ， 在 生产 集群 中 是 放 在 HDFS 上 的 ， 同 时 为 了 提高 效率 ， 在 进行 checkpoint 的 使 
用 时 ， 可 以 指定 很 多 目录 。 

SparkContext 为 即将 计算 的 RDD 设置 checkpoint 保存 的 目录 。 如 果 在 集群 中 运行 ,必须 
是 HDFS 的 目录 路 径 。 

SparkContext.scala 的 setCheckpointDir 的 源码 如 下 。 

def setCheckpointDir (directory: String) { 


| /** 
* 如 果 在 集群 上 运行 ， 如 目录 是 本 地 的 ， 则 记录 一 个 警告 。 否 则 ，driver 可 能 会 试图 从 它 自己 
* 的 本 地 文件 系统 重建 RDD 的 checkpoint 检测 点 ， 因 为 checkpoint 检查 点 文件 不 正确 。 
* 实 际 上 是 在 Executor 机 器 上 
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*/ 
4 if (!isLocal && Utils.nonLocalPaths (directory) .isEmpty) { 
5 logWarning("Spark is not running in local mode, therefore the 
checkpoint directory " + 
6 s"must not be on the local filesystem. Directory "$directory' "+ 
ye "appears to be on the local filesystem.") 
8 } 
了 0 checkpointDir = Option(directory) .map { dir => 
1 val path = new Path(dir, UUID.randomUUID() .toString) 
了 2 val fs = path.getFileSystem(hadoopConfiguration) 
3 fs.mkdirs (path) 
开征 fs.getFileStatus (Path) .getPath.-toString 
Es } 
16: 小 


RDD.scala 的 checkpoint 方法 标记 RDD 的 检查 点 checkpoint。 它 将 保存 到 SparkContext# 
setCheckpointDir 的 目录 检查 点 内 的 文件 中 ,所 有 引用 它 的 父 RDDs 将 被 移 除 。 须 在 任何 作业 
之 前 调用 此 函数 。 建 议 RDD 在 内 存 中 缓存 ， 和 否则 保存 在 文件 中 时 需要 重新 计算 。 

RDD.scala 的 checkpoint 的 源码 如 下 。 


1. def checkpoint(): Unit = RDDCheckpointData.synchronized { 


2 // 注 意 : 我 们 在 这 里 使 用 全 局 锁 ， 原 因 是 下 游 的 复杂 性 : 子 RDD 分 区 指向 正确 的 父 分 区 。 未 
// 来 我 们 应 该 重新 考虑 这 个 问题 

所 if (context .checkpointDir.isEmpty) { 

4. throw new SparkException("Checkpoint directory has not been set in 


the SparkContext") 
< 请 } else if (checkpointData.isEmpty) { 
Bs checkpointData = Some (new ReliableRDDCheckpointData (this)) 
区 1 
8 } 


其 中 的 checkpointData 是 RDDCheckpointData。 

:iE private[spark] var checkpointData: Option [RDDCheckpointData[T]] = None 

RDDCheckpointData 标识 某 个 RDD 要 进行 checkpoint。 如 果 某 个 RDD 要 进行 checkpoint， 
那 在 Spark 框架 内 部 就 会 生成 RDDCheckpointData。 

0 private[spark] abstract class RDDCheckpointData[T: ClassTag] (@transient 


private val rdd: RDD[IT]) 
extends Serializable { 


import CheckpointSstate. 


// 相 关 的 RDD 检查 状态 


protected var cpState = Initialized 


9. ”//RDD 包含 检查 点 数据 
于 OO private var cpRDD: Option [CheckpointRDD[IT]] = None 


Er 

12. // 待 办 事宜 : 确定 需要 在 下 面 的 方法 中 使 用 全 局 锁 吗 
3 

14. Var 

3 * 返 回 RDD 的 checkpoint 数据 是 否 已 经 持久 化 
16 . */ 


17. def isCheckpointed: Boolean = RDDCheckpointData.synchronized { 
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18. cpState == Checkpointed 
19. } 

20. 

2 /站 机 


2 * 物 化 RDD 和 持久 化 其 内 容 

233 *RDD 的 第 一 个 行动 完成 以 后 立即 触发 调用 

24. */ 

25. final def checkpoint(): Unit = { 

26. // 防 止 多 个 线程 同时 对 相同 RDDCheckpointing, 这 RDDCheckpointData 状态 自动 翻转 


2 RDDCheckpointData.synchronized { 
这 if (cpState == Initialized) { 
295 cpState = CheckpointingInProgress 
0: } else { 
SE return 
325 } 
3 } 
34. 
5 val newRDD = doCheckpoint () 
365 
37 // 更 新 我 们 的 状态 和 截断 RDD 的 血统 
38 . RDDCheckpointData.synchronized { 
39. CPRDD = Some (newRDD) 
40. cpState = Checkpointed 
4 rdd.markCheckpointed () 
42. } 
A435 } 
44. 
45 . /站 本 
46. * 物 化 RDD 和 持久 化 其 内 容 
47. 于 
48. * 子 类 应 重 写 此 方法 ， 以 定义 自 定义 检查 点 行为 
49. * @return the Checkpoint RDD 在 进程 中 创建 
50. */ 
Se protected def docheckpoint () : CheckpointRDDI[T] 
2 /se 
* 返 回 包含 我 们 的 检查 点 数据 。 如 果 checkpoint 的 状态 是 Checkpointed， 才 定义 
*/ 
2 中 


54. def checkpointRDD: Option[CheckpointRDD[T]] = RDDCheckpointData. 
synchronized { cpRDD } 


号 后 A 
* 返 回 checkpoint RDD 的 分 区 ， 仅 用 于 测试 
守 太 
56. 
57. def getPartitions: Array[Partition] = RDDCheckpointData.synchronized { 
S85 cpRDD.map(_.partitions) .getOrElse { Array.empty } 
S59 1 
60. 
证 
62. /**# 
* 同 步 检查 点 操作 的 全 局 锁 
*/ 
G3 


64. private[spark] object RDDCheckpointData 


.384 


第 9 章 ”Spark 中 Cache 和 checkpoint 原理 和 源码 详解 




















(2) 在 进行 RDD 的 checkpoint 的 时 候 ， 其 所 依赖 的 所 有 的 RDD 都 会 从 计算 链条 中 清 
(3) 作为 最 佳 实践 ， 一 般 在 进行 checkpoint 方法 调用 前 都 要 进行 persist 把 当前 RDD 的 
数据 持久 化 到 内 存 或 者 磁盘 上 ， 这 是 因为 checkpoint 是 Lazy 级 别 ， 必 须 有 Job 的 执行 ， 且 在 
Job 执行 完成 后 , 才 会 从 后 往 前 回溯 哪个 RDD 进行 了 checkpoint 标记 , 然后 对 标记 过 的 RDD 
新 启动 一 个 Job 执行 具体 的 checkpoint 过 程 。 

(4) checkpoint 改变 了 RDD 的 Lineage。 

(5) 当 调 用 checkpoint 方法 要 对 RDD 进行 checkpoint 操作 ， 此 时 框架 会 自动 生成 
RDDCheckpointData， 当 RDD 上 运行 过 一 个 Job 后 ， 就 会 立即 触发 RDDCheckpointData 中 
的 checkpoint 方法 ， 在 其 内 部 会 调用 doCheckpoint， 实 际 上 在 生产 时 会 调用 
ReliableRDDCheckpointData 的 doCheckpoint， 在 生产 过 程 中 会 导致 ReliableCheckpointRDD 
的 writeRDDToCheckpointDirectory 的 调用 ， 而 在 writeRDDToCheckpointDirectory 方法 内 部 ， 
会 触发 runJob 来 执行 把 当前 的 RDD 中 的 数据 写 到 checkpoint 的 目录 中 ， 同 时 会 产生 
ReliableCheckpointRDD 实例 。 

RDDCheckpointData .scala 的 checkpoint 方法 进行 真正 的 checkpoint: 在 RDDCheckpointData. 
synchronized 同步 块 中 先 判断 cpState 的 状态 ， 然 后 调用 doCheckpoint()。 

RDDCheckpointData.scala 的 checkpoint 方法 的 源码 如 下 。 

final def checkpoint () : Unit = { 
// 防 止 多 个 线程 同时 对 相同 RDDcheckpointing， 这 RDDCheckpointData 状态 自动 翻转 
RDDCheckpointData.synchronized { 
if (cpState == Initialized) { 
cpState = CheckpointingInProgress 
} else { 
return 


a 
} 


oo~awm 必 wm 


oo~awm 必 wm 六 口 ， 


val newRDD = docheckpoint () 


// 更 新 我 们 的 状态 和 截断 RDD 的 血统 
RDDCheckpointData.synchronized { 
CPRDD = Some (newRDD) 
cpState = Checkpointed 
rdd.markCheckpointed () 
} 
} 


其 中 的 doCheckpoint 方法 是 RDDCheckpointData.scala 中 的 方法 ， 这 里 没有 上 有 具体 的 实现 。 


:8 protected def docheckpoint () : CheckpointRDDI[T] 





RDDCheckpointData 的 子 类 包括 LocalRDDCheckpointData、 ReliableRDDCheckpointData。 
ReliableRDDCheckpointData 子 类 中 doCheckpoint 方法 具体 的 实现 ， 在 方法 中 进行 
writeRDDToCheckpointDirectory 的 调用 。 

ReliableRDDCheckpointData.scala 的 doCheckpoint 的 源码 如 下 。 





: 攻 protected override def docheckpoint () : CheckpointRDD[T] = { 
2 Val newRDD = ReliableCheckpointRDD.writeRDDToCheckpointDirectory (rdd, 
cpDir) 


a 
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// 如 果 引 用 超出 范围 ， 则 可 选 地 清理 检查 点 文件 
if (rdd.conf.getBoolean ("spark.cleaner.referenceTracking. 
cleanCheckpoints", false)) { 
rdd.context.cleaner.foreach { cleaner => 
cleaner .registerRDDCheckpointDataForCleanup (newRDD, rdd.id) 
} 
} 


logInfo(s"Done checkpointing RDD ${rdd.id} to $cpDir, new parent is 
RDD $ {newRDD.id}") 
newRDD 


writeRDDToCheckpointDirectory 将 RDD 的 数据 写 入 到 checkpoint 的 文件 中 ， 返 回 一 个 
ReliableCheckpointRDD 。 


口 


口 
口 
口 
口 


得 


首先 找到 sparkContext， 赋 值 给 sc 变量 。 

基于 checkpointDir 创建 checkpointDirPath 。 

人 获取 文件 系统 的 内 容 。 

然后 是 广播 sc-broadcast， 将 路 径 信息 广播 给 所 有 的 Executor。 

接 下 来 是 scrunJob， 触 发 runJob 执行 ， 把 当前 的 RDD 中 的 数据 写 到 checkpoint 的 
目录 中 。 

最 后 返回 ReliableCheckpointRDD。 无 论 是 对 哪个 RDD 进行 checkpoint， 最 终 都 会 产 
生 ReliableCheckpointRDD， 以 checkpointDirPath ,toString 中 的 数据 为 数据 来 源 ， 以 
originalRDD.partitioner 的 分 区 器 partitioner 作为 partitioner; 这 里 的 originalRDD 就 是 
要 进行 checkpoint 的 RDD。 


writeRDDToCheckpointDirectory 的 源码 如 下 。 


忆 FFPieooc am 必 wm 
a 


卢 
Ke 


DL 
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def writeRDDToCheckpointDirectory[T: ClassTag] ( 
originalRDD: RDDI[T], 
checkpointDir: String, 
blockSize: Int = -1): ReliableCheckpointRDD[T] = { 


val sc = originalRDD.sparkContext 


// 为 检查 点 创建 输出 路 径 
val checkpointDirPath = new Path (checkpointDir) 
val fs = checkpointDirPath.getFileSystem(sc.hadoopConfiguration) 
if (!fs.mkdirs (CheckpointDirPath)) { 
throw new SparkException(s"Failed to create checkpoint path 
ScheckpointDirPath") 
上 


// 保 存 文件 ， 并 重新 加 载 它 作为 一 个 RDD 
Val broadcastedConf = sc.broadcast( 
new SerializableConfiguration(sc.hadoopConfiguration)) 
// 待 办 事项 : 这 是 代价 昂贵 的 ， 因 为 它 又 一 次 计算 RDD 是 不 必要 的 (SPARK-8582) 
sc.runJob (originalRDD, 
writePartitionToCheckpointFile[T] (checkpointDirPath.toString， 
broadcastedConf) _) 
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if (originalRDD.partitioner.nonEmpty) { 
writePartitionerToCheckpointDir(sc, originalRDD.partitioner.get, 
checkpointDirPath) 

下 


val newRDD = new ReliableCheckpointRDD[T] ( 
sc, checkpointDirPath.toString, originalRDD.partitioner) 
if (newRDD.partitions.length != originalRDD.partitions.length) { 
throw new SparkException( 
s"Checkpoint RDD $newRDD($ {newRDD.partitions.length}) has 
different "+ 
s"number of partitions from original RDD S$originalRDD 
(${originalRDD.partitions.1length})") 
下 
newRDD 


ReliableCheckpointRDD 是 读 取 以 前 写 入 可 靠 存 储 系统 检查 点 文件 数据 的 RDD。 其 中 的 
partitioner 是 构建 ReliableCheckpointRDD 的 时 候 传 进来 的 。 其 中 的 getPartitions 是 构建 一 个 
一 个 的 分 片 。 其 中 ，getPreferredLocations 获取 数据 本 地 性 ，fs.getFileBlockLocations 获取 文件 


的 位 置 


信息 。compute 方法 通过 ReliableCheckpointRDD.readCheckpointFile 读 取 数 据 。 


ReliableCheckpointRDD.scala 的 源码 如 下 。 


加 ov~awm 必 mw 
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private[spark] class ReliableCheckpointRDD[T: ClassTag] ( 
sc: SparkContext, 
val checkpointPath: String, 
_partitioner: Option[Partitioner] = None 

) extends CheckpointRDD[T] (sc) { 


@transient private val hadoopConf = sc.hadoopConfiguration 
@transient private val cpath = new Path (checkpointPath) 

@transient private val fs = cpath.getFileSystem(hadoopConf) 

private val broadcastedConf = sc.broadcast (new SerializableConfiguration 
(hadoopConf) ) 

// 如 果 检 查 点 目录 不 存在 ， 则 快速 失败 

Fequire (fs.exists (cpath)， s"Checkpoint directory does not exist: 
$checkpointPath") 


/** 
* 返 回 checkpoint 的 路 径 ，RDD 从 中 读 取 数据 
区 


override val getCheckpointFile: Option[String] = 
override val partitioner: Option[Partitioner] = 
partitioner.orElse { 
ReliableCheckpointRDD.readCheckpointedPartitionerFile (context, 
checkpointPath) 
} 
} 
/** 
* 返 回 检查 点 目录 中 的 文件 所 描述 的 分 区 
* 由 于 原来 的 RDD 可 能 属于 一 个 之 前 的 应 用 ， 没 办 法 知道 之 前 的 分 区 数 。 此 方法 假定 在 应 用 
* 生 命 周 期 ， 原 始 集 检查 点 文件 完全 保存 在 可 靠 的 存储 里 面 
池 


Some (checkpointPath) 
{ 


protected override def getPartitions: Array[Partition] = { 


// 如 果 路 径 不 存在 ，1iststatus 就 抛 出 异常 


“ 387. 
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val inputFiles = fs.listStatus (cpath) 
-map( -getPath) 
-filter( .getName.startsWith ("part-—")) 
.sortBy( -getName.stripPrefix("part-") .toInt) 
// 如 果 输 入 文件 无 效 ， 则 快速 失败 
inputFiles.zipWithIndex.foreach { case (path, i) => 
if (path.getName != ReliableCheckpointRDD.checkpointFileName (i)) { 
throw new SparkException(s"Invalid checkpoint file: $path") 
; 


} 
Array.tabulate (inputFiles.length) (i => new CheckpointRDDPartition(i)) 


} 
/** 
* 返 回 与 给 定 分 区 关联 的 检查 点 文件 的 位 置 
od 
protected override def getPreferredLocations (split: Partition): 
Seq[String]l = { 
val status = fs.getFileStatus( 
new Path(checkpointPath, ReliableCheckpointRDD.checkpointFileName 
(split.index))) 
val locations = fs.getFileBlockLocations (status, 0, status.getLen) 
locations.headOption.toList.flatMap( .getHosts).filter( != "localhost") 
} 


/** 


* 读 取 与 给 定 分 区 关联 的 检查 点 文件 的 内 容 

本 

override def compute(split: Partition, context: TaskContext): I 

terator[T] = { 
val file = new Path(checkpointPath, ReliableCheckpointRDD. 
checkpointFileName (split.index)) 
ReliableCheckpointRDD.readCheckpointFile (file, broadcastedConf, context) 


下 面 看 一 下 ReliableCheckpointRDD.scala 中 compute 方法 中 的 ReliableCheckpointRDD. 
readCheckpointFile 。 readCheckpointFile 读 取 指 定 检 查 点 文件 checkpoint 的 内 容 。 
readCheckpointFile 方法 通过 deserializeStream 反 序 列 化 fileInputStream 文件 输入 流 ， 然 后 将 
deserializeStream 变 成 一 个 Iterator。 

Spark 2.1.1 版 本 的 ReliableCheckpointRDD.scala 的 readCheckpointFile 的 源码 如 下 。 


Di 必 mw 


Ke 


def readCheckpointFile[T]( 
path: Path, 
broadcastedConf: Broadcast[SerializableConfiguration], 
context: TaskContext): Iterator[T] = { 
val env = SparkEnv.get 
val fs = path.getFileSystem(broadcastedConf.value.value) 
val bufferSize = env.conf.getInt ("spark.buffer.size", 65536) 
val fileInputStream = fs.open(path, bufferSize) 
val serializer = env.serializer.newInstance() 
val deserializeStream = serializer.deserializeStream(fileInputstream) 


// 注 册 一 个 任务 完成 回调 以 ， 关 闭 输 入 流 


context .addTaskCompletionListener (context => deserializeStream.close()) 
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deserializeStream.asIterator.asInstanceOf[Iterator[T]] 


| 
} 


Spark 2.2.0 版 本 的 ReliableCheckpointRDD.scala 的 readCheckpointFile 的 源码 与 Spark 
2.1.1 版 本 相 比 具有 如 下 特点 : 上段 代 码 中 第 8 行 整体 奉 换 ， 新 增 fleInputStream 变量 中 对 
CHECKPOINT_ COMPRESS 压缩 配置 的 判断 。 如 果 CHECKPOINT 压缩 配置 为 tue， 则 对 
fileStream 文件 流 进行 压缩 。 


pODP 


Fo oo oa 


val fileInputStream = { 
val fileStream = fs.open(path, bufferSize) 
if (env.conf.get (CHECKPOINT COMPRESS)) { 
CompressionCodec.createCodec (env.conf) .compressedInputStream 
(fileStream) 
} else { 
fileStream 


ReliableRDDCheckpointData.scala 的 cleanCheckpoint 方法 ， 清 理 RDD 数据 相关 的 
checkpoint 文件 。 


wo 心 wm 


def cleanCheckpoint (sc: SparkContext, rddId: Int): Unit = { 
checkpointPath(sc, rddId) .foreach { path => 
path.getFileSystem(sc.hadoopConfiguration) .delete (path, true) 
} 


在 生产 环境 中 不 使 用 LocalCheckpointRDD。LocalCheckpointRDD 的 getPartitions 直接 从 
toArray 级 别 中 调用 new0 函 数 创 建 CheckpointRDDPartition。LocalCheckpointRDD 的 compnute 
方法 直接 报 异常 。 

LocalCheckpointRDD 的 源码 如 下 。 


co~awm 必 ww 


卢 
OO" 
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private[spark] class LocalCheckpointRDD[T: ClassTag] ( 
sc: SparkContext, 
radid:. Int, 
numPartitions: Int) 

extends CheckpointRDD[T] (sc) { 


protected override def getPartitions: Array[Partition] = { 


(0 until numPartitions) .toRrray-map { i => new CheckpointRDDPartition (i) } 


override def compute (Partition: Partition, context: TaskContext): 
Iterator[T] = { 
throw new SparkException( 

s"Checkpoint block ${RDDBlockId(rddId, partition.index)} not found! 
Either the executor "+ 
s"that originally checkpointed this partition is no longer alive, 
or the original RDD is "+ 
s"unpersisted. If this problem persists, you may consider using 
'rdd.checkpoint()' "+ 
s"instead, which is slower than local checkpointing but more fault-— 
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checkpoint 运行 流程 图 如 图 9-2 所 示 。 
















ep i 
通过 SparkContext 运行 过 一 个 Job 后 ， 就 会 立即 
WL Sparke -onto 发 RDDCheckpointData 中 的 Check 
point 方 法 ， 在 其 内 部 会 调用 do 
Checkpoint 


: ReliableCheckpoint 
调用 ReliableRDD||RDD 的 writeRDDTo 


heckpointData 的 人 ae 
oCheckpoint | Boa eetory 









在 writeRDDToCheckpointDirectory 方 法 内 部 会 触发 inJob， 来 执行 把 当前 的 RDD 中 的 
数据 写 到 Checkpoint 的 目录 中 ， 同 时 会 产生 ReliableCheckpointRDD 实 例 





ReliableCheckpointRDD 


图 9-2 ”Checkpoint 运行 流程 图 


通过 SparkContext 设置 Checkpoint 数据 保存 的 目录 ，RDD 调用 checkpoint 方法 ， 生 产 
RDDCheckpointData， 当 RDD 上 运行 一 个 Job 后 ， 就 会 立即 触发 RDDCheckpointData 中 的 
checkpoint 方法 ， 在 其 内 部 会 调用 doCheckpoint; 然后 调用 ReliableRDDCheckpointData 的 
doCheckpoint ; ReliableCheckpointRDD 的 writeRDDToCheckpointDirectory 的 调用 ; 在 
writeRDDToCheckpointDirectory 方法 内 部 会 触发 mnJob， 来 执行 把 当前 的 RDD 中 的 数据 写 
到 Checkpoint 的 目录 中 ， 同 时 会 产生 ReliableCheckpointRDD 实例 。 

checkpoint 保存 在 HDFS 中 ， 具 有 多 个 副本 ; persist 保存 在 内 存 中 或 者 磁盘 中 。 在 Job 
作业 调度 的 时 候 ，checkpoint 沿 着 finalRDD 的 “血统 ”关系 lineage 从 后 往 前 回溯 向 上 查找 ， 
查找 哪些 RDD 曾 标 记 为 要 进行 checkpoint, 标记 为 checkpointInProgress; 一 旦 进行 checkpoint， 
RDD 所 有 父 RDD 就 被 清空 。 
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第 10 章 Spark 中 Broadcast 和 
Accumulator 原理 和 源码 详解 


本 章 讲解 Spark 中 Broadcast 和 Accumulator 原理 和 源码 。10.1 节 中 讲解 Spark 中 Broadcast 
原理 和 源码 ，Broadcast 将 数据 从 一 个 节点 发 送 到 其 他 节点 上 ， 一 般 用 于 处 理 共享 配置 文件 、 
通用 的 Dataset、 常 用 的 数据 结构 等 ，10.2 节 对 Spark 中 Accumulator 原理 和 源码 进行 详解 。 
Accumulator 是 分 布 式 全 局 只 写 的 数据 结构 ， 用 于 数据 的 累加 。 


10.1 Spark 中 Broadcast 原理 和 源码 详解 


本 节 讲 解 Spark 中 Broadcast 原理 及 Spark 中 Broadcast 源码 。 
10.1.1 Spark 中 Broadcast 原理 详解 


Broadcast 在 机 器 学 习 、 图 计算 、 构 建 日 常 的 各 种 算法 中 到 处 可 见 。 Broadcast 将 数据 从 
-个 节点 发 送 到 其 他 节点 上 ; 例如 , Driver 上 有 一 张 表 , 而 Executor 中 的 每 个 并 行 执行 的 Task 
(100 万 个 Task) 都 要 查询 这 张 表 ， 那 我 们 通过 Broadcast 的 方式 只 需要 往 每 个 Executor 发 送 
-次 这 张 表 就 行 了 ，Executor 中 的 每 个 运行 的 Task 查询 这 张 唯一 的 表 ， 而 不 是 每 次 执行 的 时 
候 都 从 Driver 获得 这 张 表 。 
Java 中 的 Servlet 里 有 一 个 ServletContext， 是 JSP 或 Java 代码 运行 时 的 上 下 文 ， 通 过 上 
下 文 可 以 获取 各 种 资源 。Broadcast 类 似 于 ServletContext 中 的 资源 、 变 量 或 数据 ，Broadcast 
广播 出 去 是 基于 Executor 的 ， 里 面 的 每 个 任务 可 以 用 上 下 文 ，Task 的 上 下 文 就 是 Executor， 
可 以 抓 取 数 据 。 这 就 好 像 ServletContext 的 具体 作用 ， 只 是 Broadcast 是 分 布 式 的 共享 数据 ， 
默认 情况 下 ， 只 要 程序 在 运行 ，Broadcast 变量 就 会 存在 ， 因 为 Broadcast 在 底层 是 通过 
BlockManager 管理 的 。 但 是 ， 你 可 以 手动 指定 或 者 配置 具体 周期 来 销毁 Broadcast 变量 。 可 
以 指定 Broadcast 的 unpersist 销毁 Broadcast 变量 ， 因 为 Spark 应 用 程序 中 可 能 运行 很 多 Job， 
可 能 一 个 Job 需要 很 多 Broadcast 变量 , 但 下 一 个 Job 不 需要 这 些 变量 , 但 是 应 用 程序 还 存在 ， 
因此 需 手 工 销毁 Broadcast 变量 。 

Broadcast 一 般 用 于 处 理 共享 配置 文件 、 通 用 的 Dataset、 常 用 的 数据 结构 等 ， 但 是 在 
Broadcast 中 不 适合 存放 太 大 的 数据 ，Broadcast 不 会 内 存 溢出 ， 因 为 其 数据 的 保存 的 
StorageLevel 是 MEMORY_AND _DISK 的 方式 ; 虽然 如 此 ， 我 们 也 不 可 以 放 入 太 大 的 数据 在 
Broadcast 中 ， 因 为 网 络 WO 和 可 能 的 单 点 压力 会 非常 大 ! (Spark 1.6 版 本 Broadcast 有 两 种 
方式 : HttpBroadcast、TorrentBroadcast。HttpBroadcast 可 能 有 单 点 压力 ; ”TorrentBroadcast 
下 载 没 有 单 点 压力 ， 但 可 能 有 了 网络 压力 ) Spark 2.0 版 本 中 已 经 去 掉 HTTPBroadcast 
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(SPARK-12588) 了 ，Spark 2.0 版 本 的 TorrentBroadcast 是 Broadcast 唯一 的 广播 实现 方式 。 

广播 Broadcast 变量 是 只 读 变量 ， 如 果 Broadcast 不 是 只 读 变量 而 可 以 更 新 ， 那 带 来 的 问 
题 是 : 四 一 个 节点 上 Broadcast 可 以 更 新 ， 其 他 的 节点 Broadcast 也 要 更 新 ，@ 如 果 多 个 节 
点 Broadcast 同时 更 新 ， 如 何 确定 更 新 的 顺序 ， 以 及 容错 等 内 容 。 因 此 ， 广 播 Broadcast 变量 
是 只 读 变 量 ， 最 为 轻松 保持 了 数据 的 一 致 性 ! 

Broadcast 广播 变量 是 只 读 变量 ， 缓 存在 每 个 节点 上 ， 而 不 是 每 个 Task 去 获取 它 的 一 份 
复制 副本 。 例 如 ， 以 高 效 的 方式 给 每 个 节点 发 送 一 个 dataset 的 副本 。Spark 尝试 在 分 布 式 发 
送 广播 变量 时 使 用 高 效 的 广播 算法 减少 通信 的 成 本 。 

广播 变量 是 由 一 个 变量 V 通过 调用 [org.apache.spark.SparkContext#broadcast] 创 建 的 。 广 
播 变量 是 一 个 围绕 V 的 包装 器 ， 它 的 值 可 以 通过 调用 value 方法 来 获取 。 例 如 : 

二 scala> val broadcastVar = sc.broadcast (Array(1，2，3)) 
broadcastVar:org.apache. spark.broadcast .Broadcast [Array [Int] ]=Broadcast (0) 





scala> broadcastVar.value 
res0: Array[Int] = Array(l1, 2, 3) 


区 

民 全 

4 

5 

如 果 要 更 新 广播 变量 ， 只 有 再 广播 一 次 ， 那 就 是 一 个 新 的 广播 变量 ， 使 用 一 个 新 的 广播 
变量 ID。 

广播 变量 创建 后 ， 在 群集 上 运行 时 ，V 变量 不 是 在 任何 函数 都 使 用 ， 以 便 V 传送 到 节点 
时 不 止 一 次 。 此 外 ， 对 象 V 不 应 该 被 修改 ， 是 为 了 确保 广播 所 有 节点 得 到 相同 的 广播 变量 值 
〈 例 如 ， 如 果 变 量 被 发 送 到 后 来 的 一 个 新 节点 ) 。 

Broadcast 的 源码 如 下 。 

1. eparam id 广播 变量 的 唯一 标识 符 。 

etparam T ”广播 变量 的 数据 类 型 。 


3 abstract class Broadcast [T: ClassTag] (val id: Long) extends Serializable 
with Logging { 


@volatile private var isValid = true 
private var destroySite = "" 


9. /sx* 获 得 广播 值 .*/ 
OG def value: T = { 


I assertValid() 
| getValue () 
了 

SR 


Spark 1.6 版 本 的 HttpBroadcast 方式 的 Broadcast， 最 开始 的 时 候 数 据 放 在 Driver 的 本 地 
文件 系统 中 , Driver 在 本 地 会 创建 一 个 文件 夹 来 存放 Broadcast 中 的 data, 然后 启动 HttpServer 
访问 文件 夹 中 的 数据 ， 同 时 写 入 到 BlockManager (StorageLevel 是 MEMORY AND DISK) 
中 获得 BlockId(BroadcastBlockId), 当 第 一 次 Executor 中 的 Task 要 访问 Broadcast 变量 的 时 候 ， 
会 向 Driver 通过 HttpServer 来 访问 数据 ， 然 后 会 在 Executor 中 的 BlockManager 中 注册 该 
Broadcast 中 的 数据 BlockManager，Task 访问 Broadcast 变量 时 ， 首 先 查 询 BlockManager， 如 
果 BlockManager 中 已 有 此 数据 ，Task 就 可 直接 使 用 BlockManager 中 的 数据 (说 明 
SPARK-12588，HTTPBroadcast 方式 在 Spark 2.0 版 本 中 已 经 去 掉 ) 。 





wa 
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10.1.2 Spark 中 Broadcast 源码 详解 


BroadcastManager 是 用 来 管理 Broadcast 的 , 该 实例 对 象 是 在 SparkContext 创建 SparkEnv 
的 时 候 创建 的 。 
SparkEnv.scala 的 源码 如 下 。 


民 val broadcastManager = new BroadcastManager (isDriver, conf, securityManager) 
他 < 

人 val mapOutputTracker = if (isDriver) { 

4. new MapOutputTrackerMaster (conf, broadcastManager, isLocal) 

与 } else { 

6 new MapOutputTrackerWorker (conf) 

Ws } 


BroadcastManager.scala 中 BroadcastManager 实例 化 的 时 候 会 调用 initialize 方法 ,initialize 
方法 就 创建 TorrentBroadcastFactory 的 方式 。 
BroadcastManager 的 源码 如 下 。 


本 

2. Private[spark] class BroadcastManageLr( 

二 val isDriver: Boolean, 

4. conf: SparkConf, 

securityManager: SecurityManager) 

65 extends Logging { 

Ds 

8 private var initialized = false 

private var broadcastFactory: BroadcastFactory = null 
eli 

ds initialize() 

325 

13.  // 使 用 广播 前 ， 被 SparkContext 或 Executor 调用 

让 本 Private def initialize() { 

1 synchronized { 

16. if (!initialized) { 

YTs broadcastFactory = new TorrentBroadcastFactory 
DE broadcastFactory.initialize(isDriver, conf, securityManager) 
19-。 initialized = true 

20-。 } 

21. } 

2 


Spark 2.0 版 本 中 的 TorrentBroadcast 方式 : 数据 开始 在 Driver 中 ，A 节点 如 果 使 用 了 数 
据 ，A 就 成 为 供应 源 ， 这 时 Driver 节点 、A 节点 两 个 节 如 第 三 个 节点 也 访问 
的 时 候 ， 第 三 个 节点 也 也 成 为 了 供应 源 ， 同 样 地 ， 第 四 个 节点 、 第 五 个 节点 …… 等 都 成 为 了 
供应 源 ， 这 些 都 被 BlockManager 管理 ， 这 样 不 会 导致 一 个 节点 压力 太 大 ， 从 理 他 上 讲 ， 数 据 
使 用 的 节点 越 多 ， 网 络 速度 就 越 快 。 

TorrentBroadcast 按照 BLOCK_SIZE (默认 是 4MB ) 将 Broadcast 中 的 数据 划分 成 为 不 同 
的 Block， 然 后 将 分 块 信息 (也 就 是 Meta 信息 ) 存放 到 Driver 的 BlockManager 中 ， 同 时 会 
告诉 BlockManagerMaster， 说 明 Meta 信息 存放 完毕 。 

SparkContext.scala 的 broadcast 方法 的 源码 如 下 。 


3 
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;ee def broadcast[T: ClassTag] (value: T): Broadcast[T] = { 

2 assertNotStopped () 

3 require(!classOf[RDD[ ]].isAssignableFrom(classTag[T] .runtimeClass), 

4. "Can not directly broadcast RDDs; instead, call collect() and 
broadcast the result.") 

5 val bc = env.broadcastManager.newBroadcast [T] (value, isLocal) 

6. val callSite = getCal1Site 

y logInfo ("Created broadcast " + bc.id + " from " + callSite.shortForm) 

8. cleaner.foreach( .registerBroadcastForCleanup (bc)) 

9s bc 

10. 


SparkContext.scala 的 broadcast 方法 中 调用 env.broadcastManager.newBroadcast 。 
BroadcastManager.scala 的 newBroadcast 方法 如 下 。 


:而 def newBroadcast [T: ClassTag] (value :T, isLocal: Boolean): Broadcast[T] 
a 
人 broadcastFactory.newBroadcast[T] (value , isLocal, nextBroadcastId. 
getAndIncrement ()) 
区 } 


newBroadcast 方法 调用 new0 函 数 创建 一 个 Broadcast, 第 一 个 参数 是 Value， 第 三 个 参数 
是 BroadcastId。 这 里 ，BroadcastFactory 是 一 个 trait， 没 有 具体 的 实现 。 


= private[spark] trait BroadcastFactory { 

> 

3 def newBroadcast[T: ClassTag] (value: T, isLocal: Boolean, id: Long): 
Broadcast [T] 

A 


TorrentBroadcastFactory 是 BroadcastFactory 的 具体 实现 。 


1. private[spark] class TorrentBroadcastFactory extends BroadcastFactory { 

> 

3. override def newBroadcast[T: ClassTag] (value : T, isLocal: Boolean, id: 
Long): Broadcast[T] = { 

着 new TorrentBroadcast [T] (value , id) 

Se } 


BroadcastFactory 的 newBroadcast 方法 创建 TorrentBroadcast 实例 。 
Spark 2.1.1 版 本 的 TorrentBroadcast.scala 的 源码 如 下 。 


本 private[spark] class TorrentBroadcast [T: ClassTag] (obj: T, id: Long) 


机 extends Broadcast[T] (id) with Logging with Serializable { 
3 

4. private def readBlocks(): Array[ChunkedByteBuffer] = { 

请 // 获 取 数 据 块 。 注 意 ， 所 有 这 些 块 存 储 在 BlockManager 且 向 driver 汇报 ， 其 他 


//Executors 也 可 以 从 这 个 Executors 中 提取 这 些 块 


| ;证 val blocks = new Array[ChunkedByteBuffer] (numBlocks) 

了 val bm = SparkEnv.get.blockManager 

8 

9 for (pid <- Random.shuffle (Seq.range (0, numBlocks))) { 

10 . val pieceId = BroadcastBlockId(id，"piece" + pid) 

logDebug (s"Reading piece SpieceId of $broadcastId") 

2 // 第 一 次 尝试 getLocalBytes 从 本 地 读 取 : 因为 以 前 试图 获取 广播 块 时 已 经 获取 了 一 些 
// 块 ， 在 这 种 情况 下 ， 一 些 块 将 在 本 地 (在 Executor 上 ) 

[= 疙 bm.getLocalBytes (pieceId) match { 

6 case Some (block) => 
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blocks (pid) = block 
releaseLock (PieceId) 
case None => 
bm.getRemoteBytes (pieceId) match { 
case Some (b) => 
if (checksumEnabled) { 
val sum = calcChecksum(b.chunks (0)) 
if (sum != checksums (pid)) { 
throw new SparkException(s"corrupt remote block $pieceId 
of $broadcastId:" + 
s" $sum != ${checksums (pid)}") 
. 
} 
// 从 远程 Executors/driver 的 BlockManager 查找 块 ， 所 以 把 块 在 
//Executor 节点 BlockManager 
if (!bm.putBytes (piecelId, b, StorageLevel .MEMORY AND DISK 
SER, tellMaster = true)) { 
throw new SparkException( 
s"Failed to store $piecelId of $broadcastId in local 
BlockManager") 
} 
blocks(pid) = b 
case None => 
throw new SparkException(s"Failed to get S$piecelId of 
SbroadcastId") 


blocks 


Spark 2.2.0 版 本 的 TorrentBroadcast.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 
上 段 代码 中 第 32 行 blocks(pid) =b 调整 为 blocks(pid) = new ByteBufferBlockData(b, true) 。 


松子 


blocks (pid) = new ByteBufferBlockData(b, true) 


TorrentBroadcast.scala 的 readBlocks 方法 中 Random.shuffle(Seq.range(0, numBlocks) 进 行 
随机 洗 牌 ， 是 因为 数据 有 很 多 来 源 DataServer， 为 了 保持 负载 均衡 ， 因 此 使 用 shuffle。 

TorrentBroadcast 将 元 数据 信息 存放 到 BlockManager， 然 后 汇报 给 BlockManagerMaster。 
数据 存放 到 BlockManagerMaster 中 就 变 成 了 全 局 数据 , BlockManagerMaster 具有 所 有 的 信息 ， 
Driver 、Executor 就 可 以 访问 这 些 内 容 。Executor 运行 具体 的 TASK 的 时 候 ， 通 过 
TorrentBroadcast 的 方式 readBlocks， 如 果 本 地 有 数据 ， 就 从 本 地 读 取 ， 如 果 本 地 没有 数据 ， 
就 从 远程 读 取 数据 。Executor 读 取 信息 以 后 ， 通 过 TorrentBroadcast 的 机 制 通知 
BlockManagerMaster 数据 多 了 一 份 副本 ， 下 一 个 Task 读 取 数据 的 时 候 ， 就 有 两 个 选择 ， 分 享 
的 节点 越 多 ， 下 载 的 供应 源 就 越 多 ， 最 终 变 成 点 到 点 的 方式 。 
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Broadcast 可 以 广播 RDD，Join 操作 性 能 优化 之 一 也 是 采用 Broadcast。 
10.2 Spark 中 Accumulator 原理 和 源码 详解 


本 节 讲 解 Spark 中 Accumulator 原理 及 对 Spark 中 Accumulator 源码 进行 详解 。 
10.2.1 Spark 中 Accumulator 原理 详解 


Spark 的 Broadcast 和 Accumulator 很 重要 ， 在 实际 的 企业 级 开发 环境 中 一 般 会 使 用 
Broadcast 和 Accumulator。Broadcast、Accumulator 和 RDD 是 Spark 中 并 列 的 三 大 基础 数据 
结构 。 大 家 谈 Spark 的 时 候 ， 首 先 谈 RDD。RDD 是 一 个 并 行 的 数据 ， 关 注 在 JVM 中 怎么 处 
理 数据 。 很 多 时 候 可 能 忽略 了 Broadcast 和 Accumulator， 这 两 个 变量 都 是 全 局 级 别 的 。 例 如 ， 
集群 中 有 1000 台 机 器 ， 那 Broadcast 和 Accumulator 可 以 在 1000 台 机 器 中 共享 。 在 分 布 式 的 
基础 上 ， 如 果 有 共享 的 数据 结构 ， 那 是 非常 有 用 的 。 
分 布 式 大 数据 系统 中 ， 进 行 编程 的 时 候 首先 考虑 数据 结构 。 
口 RDD: 分 布 式 私 有 数据 结构 。RDD 本 身 是 一 个 并 行 化 的 、 本 地 化 的 数据 结构 ， 运 行 
时 在 一 个 个 线程 中 运行 , RDD 是 私有 的 运行 数据 和 私有 的 运行 过 程 , 但 在 一 个 Stage 
里 面 是 一 样 的 ， 一 个 线程 一 个 时 刻 只 处 理 一 个 数据 分 片 ， 另 一 个 线程 一 个 时 刻 只 处 
理 另 一 个 数据 片 。 在 设计 业务 罗 辑 的 时 候 ， 我 们 通常 考虑 这 个 分 片 如 何 去 处 理 。 

口 Broadcast: 分布 式 全 局 只 读数 据 结 构 。 

口 Accumulator: 分 布 式 全 局 只 写 的 数据 结构 。 我 们 不 会 在 线程 池 中 读 取 Accumulator， 
但 在 Driver 上 可 以 读 取 Accumulator。 

在 生产 环境 下 ， 我 们 一 定 会 自 定义 Accumulator。 

(1) 自 定义 时 可 以 让 Accumulator 非常 复杂 ， 基 本 上 可 以 是 任意 类 型 的 Java 和 Scala 
对 象 。 

(2) 自 定义 Accumulator 时 ， 可 以 实现 一 些 “ 技 术 福利 ”。 例 如 ， 在 Accumulator 变化 的 
时 候 可 以 把 数据 同步 到 MySQL 中 。 我 们 在 进行 流 处 理 的 时 候 ， 数 据 不 断 地 流 进来 ， 如 要 查 
询 用 户 点 击 量 的 趋势 图 ， 计 算 点 击 量 以 后 须 实时 反馈 到 生产 环境 的 server 上 。 一 个 非常 简单 
的 实现 方式 是 : 每 次 发 现 累 加 的 时 候 ， 就 更 新 一 下 数据 库 ， 这 是 一 个 非常 强大 的 同步 机 制 和 
同步 效果 。 


10.2.2 Spark 中 Accumulator 源码 详解 


Accumulator 是 一 个 简单 的 value 值 [Accumulable], 相同 类 型 的 元 素 合 并 时 结果 可 以 累加 ， 
通过 added 到 关联 和 交换 操作 ， 可 以 有 效 地 支持 并 行 ， 可 以 用 来 实现 计数 〈 如 MapReduce) 
或 求 和 。Spark 原生 支持 数值 类 型 的 累加 器 ， 也 可 以 自 定 义 开发 实现 新 类 型 的 支持 。 

累加 器 由 一 个 初始 值 V 通过 调用 [SparkContext#accumulator SparkContext.accumulator] 创 
建 。 在 群集 上 运行 的 任务 可 以 使 用 “+=” 运 算 符 写 入 ， 但 是 不 能 读 取 它 的 值 。 只 有 Driver 程 
序 使 用 [#value] 方 法 可 以 读 取 累 加 器 的 值 。 例 如 : 


"30 
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scala> val accum = sc.accumulator (0) 
accum: org.apache.spark.Accumulator[Int] = 0 
5 scala> sc.parallelize(Array(l, 2, 3, 4)).foreach(x => accum += x) 


10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s 


scala> accum.value 
res2: Int = 10 


Accumulator.scala 的 源码 如 下 。 


Q@deprecated ("use AccumulatorV2", "2.0.0") 
class Accumulator[T] private[spark] ( 

// SI-8813: 必须 显 式 地 定义 private val， 否 则 Scala 2.11 不 编译 
@transient private val initialValue: T, 
Param: AccumulatorParam[T], 
name: Option[String] = None, 
countFailedValues: Boolean = false) 

extends Accumulable[T, T] (initialValue, param, name, countFailedValues) 


oANpPODPp 


Accumulator 是 一 个 类 ， 继 承 自 Accumulable 。Accumulator 已 经 被 标识 为 过 时 的 
(deprecated) ， 在 Spark 2.0 版 本 中 可 以 使 用 AccumulatorV2。 
abstract class AccumulatorV2[IN, OUT] extends Serializable { 


private[spark] var metadata: AccumulatorMetadata = _ 
private[this] var atDriverSide = true 


AODP 


可 以 通过 继承 创建 自己 的 类 型 AccumulatorV2。AccumulatorV2 抽象 类 有 几 种 方法 必须 覆 
盖 : reset 用 于 将 累加 器 重 置 为 零 ，add 用 于 将 另 一 个 值 添加 到 累加 器 中 ，merge 用 于 将 另 一 
个 相同 类 型 的 累加 器 合并 到 该 累加 器 中 。 例 如 ， 假 设 有 一 个 MyVector 代表 数学 向 量 的 类 ， 
代码 如 下 : 


晒 class VectorRAccumulatorV2 extends AccumulatorV2 [MyVector, MyVector] { 
= private val myVector: MyVector = MyVector.createZeroVector 
4. 

请 def reset(): Unit = { 

6- myVector.reset () 

i } 

8. 

Os, def add(v: MyVector): Unit = { 

Oe myVector.add (v) 

下 

2 Se 

了 3 

14. 


15. // 创 建 一 个 这 种 类 型 的 累加 器 


16. val myVectorAcc = new VectorAccumulatorV2 


17. // 然 后 ， 把 它 注册 到 spark 上 下 文中 

18. sc.register (myVectorAcc, "MyVectorAccl1") 

当 自 定义 自己 的 AccumulatorV2 类 型 时 ， 生 成 的 类 型 可 能 与 添加 的 元 素 的 类 型 不 同 。 累 
加 器 更 新 仅 在 Action 动作 内 执行 ，Spark 保证 每 个 任务 对 累加 器 的 更 新 只 能 应 用 一 次 ， 即 重 
新 启动 的 任务 将 不 会 更 新 该 值 。 在 transformations 转换 中 ， 如 果 重 新 执行 任务 或 作业 阶段 ， 





mh 
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则 每 个 任务 的 更 新 可 能 会 被 多 次 执行 。 Accumulators 不 会 改变 Spark 的 Lazy 评估 模型 。 如 果 
它们 在 RDD 的 操作 中 更 新 ， 则 只 有 在 RDD 作为 操作 的 一 部 分 进行 计算 时 ， 才 会 更 新 其 值 。 
因此 ， 累 加 器 更 新 不 能 保证 在 Lazy 变换 中 执行 时 执行 map0。 

以 下 代码 中 ，accum 仍然 为 0 ， 因 为 没有 action 算 子 触发 map 操作 。 














;上 喇 val accum = sc.longAccumulator 
2. data.map { x => accum.add(x); x } 


“he 


第 11 章 ，Spark 与 大 数据 其 他 经 典 组 件 整合 
原理 与 实战 


本 章 讲解 Spark 与 大 数据 其 他 经 典 组 件 整合 原理 与 实战 。11.1 节 中 讲解 Spark 组 件 综合 
应 用 ; 11.2 节 讲 解 Spark 与 Alluxio 整合 原理 与 实战 ; 11.3 节 讲 解 Spark 与 Job Server 整合 原 
理 与 实战 ，11.4 节 通 过 生产 环境 实战 案例 讲解 Spark 与 Redis 整合 原理 与 实战 。 


11.1 Spark 组 件 综合 应 用 


Apache Spark 生态 系统 的 外 部 软件 项 目 ，Spark 第 三 方 项 目 组 件 的 综合 应 用 如 下 。 
1. spark-packages.org 


spark-packages.org 是 一 个 外 部 社区 管理 的 第 三 方 库 ， 是 附加 组 件 和 与 Apache Spark 一 起 
使 用 的 应 用 程序 的 列表 。 只 要 有 一 个 GitHub 仓库 ， 就 可 以 添加 一 个 包 。 


2. 基础 项 目 


Spark Job Server: 用 于 在 同一 个 群集 上 管理 和 提交 Spark 作业 的 REST 接口 。 
SparkR: Spark 的 R 前 端 。 

MLbase: Spark 机 器 学 习 研 究 项 目 。 

Apache Mesos: 支持 运行 Spark 的 群集 管理 系统 。 

Alluxio (Tachyon) : 支持 运行 Spark 的 内 存 速度 虚拟 分 布 式 存储 系统 。 

Spark Cassandra 连接 器 : 轻松 将 Cassandra 数据 加 载 到 Spark 和 Spark SQL 中 ; 来 自 
Datastax 。 

口 FiloDB: 一 个 Spark 集成 分 析 及 列 数据 库 ， 基 于 内 存 能 够 进行 亚 秒 级 并 发 查询 。 
口 ElasticSearch: Spark SQL 集成 。 

口 Spark-Scalding: 轻松 过 渡 Cascading/Scalding 代码 到 Spark。 

醒 | 

口 

a 





Zeppelin: 类 似 于 IPython， 还 有 ISPark 和 Spark Notebook。 
IBM Spectrum Spark: 集群 管理 软件 与 Spark 集成 。 
EclairJS: 使 Nodejs 开发 人 员 可 以 对 Spark 进行 编码 ， 数 据 科 学 家 可 以 在 Jupyter 中 
使 用 Javascript。 
口 SnappyData: 与 同一 个 JVM 集成 的 开源 OLTP + OLAP 数据 库 。 
口 GeoSpark: 地 理 空间 RDD 和 连接 。 
口 Spark Cluster: 部 团 OpenStack 工具 。 
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3. 使 用 Spark 的 应 用 程序 


口 


Apache Mahout: 以 前 运行 在 Hadoop MapReduce 上 ，Mahout 已 经 转向 使 用 Spark 作 
为 后 端 。 

Apache MRQL: 用 于 大 规模 , 分 布 式 数据 分 析 的 查询 处 理 和 优化 系统 , 构建 在 Apache 
Hadoop、Hama 和 Spark 上 。 

BlinkDB: 一 个 大 规模 并 行 的 大 致 查询 引擎 ， 建 立 在 Shark 和 Spark 上 。 

Spindle: 基于 Spark /Parquet 的 网 络 分 析 查 询 引擎 。 

Spark Spatial: Spark 的 空间 连接 和 处 理 。 

Thunderain: 是 一 个 使 用 Spark 和 Shark 的 实时 分 析 处 理 实例 。 

DF from Ayasdi: 类 似 Pandas 的 数据 框架 实现 。 

Oryx: Apache Spark 上 的 Oryx Lambda 架构 ，Apache Kafka 用 于 实时 大 规模 机 器 
学 习 。 

ADAM: 使 用 Apache Spark 加 载 ， 转 换 和 分 析 基 因 组 数据 的 框架 和 CLI。 


附加 语言 绑 定 


口 


DOOOODD 


C#/ NET: Spark 的 C# API 接 口 。 
Clojure: Spark 的 Clojure API 接口 。 
Groovy: Groovy REPL 支持 Spark。 


日 斩 日 雯 口 


11.2 Spark 与 Alluxio 整合 原理 与 实战 


Alluxio 以 前 称 为 Tachyon， 是 世界 上 第 一 个 内 存 速度 虚拟 分 布 式 存储 系统 。 它 统一 数据 
访问 、 桥 接 计 算 框架 和 底层 存储 系统 。 应 用 程序 只 需要 连接 Alluxio 来 访问 存储 在 任何 底层 
存储 系统 中 的 数据 。Alluxio 以 内 存 为 中 心 的 架构 使 数据 访问 速度 比 现 有 解决 方案 更 快 。 

本 节 讲 解 Spark 与 Alluxio 整合 原理 及 Spark 与 Alluxio 整合 实战 。 


11.2.1 Spark 与 Alluxio 整合 原理 





在 大 数据 生态 系统 中 ，Alluxio 位 于 计算 框架 或 作业 jobs 之 间 ， 如 Apache Spark、Apache 
MapReduce、Apache HBase、Apache Hive 或 Apache Flink, 以 及 各 种 存储 系统 , 如 Amazon S3、 
Google Cloud Storage、OpenStack Swift、GlusterFS、HDFS、MaprFS、Ceph、NES 和 Alibaba 
OSS。Alluxio 为 生态 系统 带 来 显著 的 性 能 改善 。 例 如 ， 百 度 使 用 Alluxio 提升 数据 分 析 速 度 
近 30 倍 ; Barclays (巴克 莱 ) 银行 使 用 Alluxio 把 不 可 能 变 成 了 可 能 ， 从 之 前 计算 的 小 时 级 
变 成 了 秒 级 ; Qunar (去 哪儿 网 ) 在 Alluxio 之 上 进行 实时 数据 分 析 。 除 了 性 能 外 ， 传 统 存储 
系统 中 的 数据 通过 桥接 存储 在 Alluxio 中 进行 新 的 工作 负载 。 用 户 可 以 使 用 其 独立 的 集群 模 
式 运行 Alluxio。 例 如， 在 Amazon EC2、Google Compute Engine 上 , 或 者 使 用 Apache Mesos 
或 Apache Yam 启动 Alluxio。 

Alluxio 兼容 Hadoop。 现 有 的 数据 分 析 应 用 程序 ， 如 Spark 和 MapReduce 程序 ， 可 以 运 
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行 在 Alluxio 上 ， 无 须 任 何 代码 更 改 。Alluxio 项 目 是 Apache License 2.0 下 的 开源 项 目 ， 部 署 








在 放 


F 多 公司 。 它 是 增长 速度 最 快 的 开源 项 目 之 一 。Alluxio 拥有 三 年 的 开源 历史 , 吸引 了 来 自 


150 多 家 机 构 的 600 多 名 参与 者 ， 包 括 阿里 巴巴 、Alluxio、 百 度 、CMU、 谷 歌 、IBM、 英 特 
尔 、NJU、 红 帽 、 加 州 大 学 伯克利 分 校 。Alluxio 项 目 是 Berkeley 数据 分 析 堆 栈 (BDAS) 的 
存储 层 ， 也 是 Fedora 发 行 版 的 一 部 分 。Alluxio 由 100 多 个 组 织 部 署 在 生产 中 ， 并 且 运 行 在 
超过 1000 个 节点 的 集群 上 。 


Alluxio 功能 如 下 。 
口 灵活 的 文件 API: Alluxio 的 原生 API 类 似 于 java.io.File 类 ， 提 供 InputStream 和 


OutputStream 接口 以 及 对 内 存 映 射 IO 的 高 效 支 持 。 建 议 使 用 此 API 从 Alluxio 获得 
最 佳 性 能 。Alluxio 还 提供 了 一 个 兼容 Hadoop 的 FileSystem 接口 ， 允 许 Hadoop 
MapReduce 和 Spark 使 用 Alluxio 代 蔡 HDFS。 

提供 容错 能 力 的 可 插 拔 存储 : Alluxio 将 内 存 中 的 数据 checkpoints 到 底层 存储 系统 。 
Alluxio 具有 通用 接口 ， 可 以 方便 地 插入 不 同 的 底层 存储 系统 。Alluxio 目前 支持 
Amazon S3、Google Cloud Storage、OpenStack Swift、GlusterFS、HDFS、MaprFS、 
Ceph、NFS、Alibaba OSS 和 单 节 点 本 地 文件 系统 ， 并 支持 许多 其 他 文件 系统 。 
采用 分 层 存 储 ， 除 了 内 存 外 ，Alluxio 还 可 以 管理 SSD 和 HDD， 人 允许 将 更 大 的 数据 
集 存储 在 Alluxio 中 。 数 据 将 自动 在 不 同 层 之 间 进 行 管理 ， 保 持 热 数 据 。 自 定义 策略 
插 拔 、 引 脚 允 许 直接 的 用 户 控制 。 

统一 命名 空间 : ”Alluxio 通过 安装 功能 实现 跨 不 同 存储 系统 的 有 效 数 据 管理 。 此 外 ， 
透明 命名 可 确保 在 将 这 些 对 象 持 久 存储 到 底层 存储 系统 时 , 保留 在 Alluxio 中 创建 的 
对 象 的 文件 名 和 目录 层次 结构 。 
Lineage 血统 : Alluxio 可 以 实现 高 吞吐 量 写 入 ， 通 过 使 用 Lineage 提供 容错 性 ， 通 
过 重新 执行 创建 输出 的 作业 恢复 丢失 的 输出 。 使 用 Lineage， 应 用 程序 将 输出 写 入 内 
存 ，Alluxio 会 以 异步 方式 定期 检查 输出 到 文件 系统 。 如 果 出 现 故 障 ，Alluxio 将 启动 
重新 计算 ， 以 恢复 丢失 的 文件 。 
Web UI 和 命令 行 : 用户 可 以 通过 Web UI 轻松 浏览 文件 系统 。 在 调试 模式 下 ， 管 理 
员 可 以 查看 每 个 文件 的 详细 信息 ， 包 括 位 置 、 检 查 点 路 径 等 。 用 户 还 可 以 使 
用 ./bin/alluxio fs 与 Alluxio 进行 交互 ， 例 如 ， 复 制 数据 进出 文件 系统 。 











在 Alluxio 上 运行 Apache Spark。HDFS 作为 分 布 式 存储 系统 ， 除 了 HDFS 外 ，Alluxio 


还 支持 许多 其 他 存储 系统 , 支持 Spark 等 框架 从 任何 数量 的 系统 读 取 数 据 或 写 入 数据 ,Alluxio 
与 Spark 1.1 之 后 的 新 版 本 配合 使 用 。 


11.2.2 Spark 与 Alluxio 整合 实战 


本 节 根 据 Alluxio 本 地 模式 与 Spark 进行 整合 实战 。 
.在 本 地 运行 Alluxio 部 署 的 步 又 


(1) 在 Linux 系统 上 安装 JDK 7 或 更 高 版 本 。 
(2) 安装 部 署 Alluxio 1.5.0。 
下 载 alluxio-1.5.0 的 Jar 安装 包 。 
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1. wget http://alluxio.org/downloads/files/1.5.0/alluxio-1.5.0-bin.tar.gz 
2. tar xviz alluxio-l1.5.0=-bin.tar.gz 
3. cd alluzxio-=1.5.0 


在 本 地 独立 模式 下 运行 ， 配 置 以 下 内 容 。 
口 设置 alluxiomasterhosmame: 在 conf/alluxio-site.properties 配置 为 localhost ( 即 
alluxio.master.hostname=localhost) 。 
口 设置 alluxio.underfs.address: 在 conf/alluxio-site.properties 配置 本 地 文件 系统 中 的 tmp 
日 录 〈( 例 如 ，alluxio.underfs.address=/tmp) 。 
口 打开 远程 登录 服务 : 登录 ssh localhost 成 功 。 如 无 需 重复 输入 密码 ， 则 可 配置 主机 的 
公共 ssh 密 钥 ~/.ssh/authorized keys。 
格式 化 Alluxio 文件 系统 。 注 意 : 首次 运行 Alluxio 时 ， 才 需要 执行 此 步 又。 如 果 为 现 有 
Alluxio 群集 运行 此 命令 ， 则 Alluxio 文件 系统 中 之 前 存储 的 所 有 数据 和 元 数据 将 被 删除 。 但 
是 ， 存 储 中 的 数据 将 不 会 更 改 。 


‘有 ./bin/alluxio format 

在 本 地 启动 Alluxio 文件 系统 ， 运 行 以 下 命令 启动 Alluxio 文件 系统 。 在 Linux 上 ， 为 了 
设置 RAMFS， 此 命令 可 能 需要 输入 密码 ， 以 获取 sudo 权限 。 

1 ./bin/alluxio-start.sh local 

(3) 验证 Alluxio 正在 运行 。 

要 验证 Alluxio 是 否 正 在 运行 ， 可 以 访问 http://localhost:19999， 或 查看 logs 文件 夹 中 的 
日 志 。 也 可 运行 mnTests 命令 进行 检查 。 

湛 ./bin/alluxio runTests 

(4) 停止 Alluxio 运行 。 

渍 ./bin/alluxio-stop.sh local 


2. Alluxio 本 地 模式 与 Spark 进 行 整合 


(1) Alluxio 客户 端 使 用 Spark 特定 的 配置 文件 进行 编译 。alluxio 使 用 以 下 命令 从 项 级 目 
录 构 建 整个 项 目 。 


: 肛 mvn clean package -Pspark -DskipTests 


(2) 添加 以 下 行 到 spark/conf/spark-defaults.conf。 


1. spark.driver.extraClassPath /<PATH TO ALLUXIO>/core/client/runtime/target/ 
alluxio-core-client-runtime-1.6.0-SNAPSHOT-jar-with-dependencies.jar 

2. spark.executor.extraClassPath /<PATH TO ALLUXIO>/core/client/runtime/ 
target/alluxio-core-client-runtime-1.6.0-SNAPSHOT-jar-with-dependenci 
es.jar 


(3) HDFS 的 附加 设置 : 如 果 Alluxio 运行 在 Hadoop 1.x 群集 上 ， 则 创建 一 个 spark/confy 
core-site xml 包含 以 下 内 容 的 新 文件 。 


:I <configuration> 
<property> 
2 <name>fs.alluxio.impl</name> 
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本 <value>alluxio.hadoop.FileSystem</value> 

Se </property> 

6. </configuration> 

(4) 如 果 使 用 zookeeper 在 容错 模式 下 运行 aluxio， 并 且 Hadoop 集群 是 1.x， 将 以 下 内 
容 添加 到 之 前 的 spark/conf/core-site.xml。 


i <property> 

2 <name>fs.alluxio-ft.impl</name> 

号 <value>alluxio.hadoop.FaultTolerantFileSystem</value> 
4. </property> 


增加 以 下 内 容 到 spark/conf/spark-defaults.conf。 


1. spark.driver.extraJavaOptions 
—Dalluxio.zookeeper .address=zookeeperHost1:2181, zookeeperHost2:2181 
-Dalluxio.zookeeper .enabled=true 

2. spark.executor.extraJavaOptions 
-Dalluxio.zookeeper .address=zookeeperHost1:2181, zookeeperHost2:2181 
-Dalluxio.zookeeper .enabled=true 

(5) 使 用 Alluxio 作为 Spark 应 用 程序 的 输入 和 输出 源 。 

使 用 Alluxio 中 的 数据 ,首先 ,把 一 些 本 地 数据 复制 到 Alluxio 文件 系统 。 将 文件 LICENSE 

放 入 Alluxio 中 ， 假 设 在 Alluxio 项 目 目录 中 : 


1. bin/alluxio fs copyFromLocal LICENSE /LICENSE 


> val s = sc.textFile("alluxio://localhost:19998/LICENSE") 
> val double = s.map(line => line + line) 


运行 spark-shell，Alluxio Master 在 localhost 模式 下 运行 。 

:bE 

4 

3. > double.saveAsTextFile("alluxio://localhost:19998/LICENSE2") 


(6) 我 们 已 经 在 Spark 应 用 程序 中 读 入 和 保存 了 Alluxio 系统 中 的 文件 ， 进 行 检查 验证 。 

打开 浏览 器 检查 http:/Wlocalhost:19999/browse。 应 该 有 一 个 输出 文件 LICENSE2， 使 
LICENSE 原文 件 中 的 每 行内 容 都 输出 两 次 。 

Alluxio 的 更 多 内 容 ， 读 者 可 以 登录 Alluxio 的 官网 (http:/www-.alluxio.org/) 进行 学 已 


11.3 ”Spark 与 Job Server 整合 原理 与 实战 


本 节 讲 解 Spark 与 Job Server 整合 原理 及 Spark 与 Job Server 整合 实战 。 
11.3.1 Spark 与 Job Server 整合 原理 
Spark-jobserver 提供 了 一 个 RESTful 接口 来 提交 和 管理 spark 的 jobs、jars 和 job 


contexts。Spark-jobserver 项 目 息 全 了 完整 的 Spark job server 的 项 目 ， 包 括 单元 测试 和 项 目 
部 署 脚本 。 


Spark-jobserver 的 特性 如 下 。 
口 “Spark as Service”: 针对 job 和 contexts 的 各 个 方面 提供 了 REST 风格 的 api 接 
口 进 行 管理 
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口 


支持 SparkSQL、Hive、Streaming Contexts/jobs 以 及 定制 job contexts。 
通过 集成 Apache Shiro 来 支持 LDAP 权限 验证 。 

通过 长 期 运行 的 job contexts 支持 亚 秒 级 别 低 延 迟 的 任务 。 

可 以 通过 结束 context 停止 运行 的 作业 (job) 。 

分 割 jar 上 传 步骤 ， 以 提高 job 的 启动 。 

异步 和 同步 的 job API， 其 中 同步 API 对 低 延 时 作业 非常 有 效 。 

支持 Standalone Spark 和 Mesos、yam。 

Job 和 jar 信息 通过 一 个 可 插 拔 的 DAO 接口 来 持久 化 。 

对 RDD 或 DataFrame 对 象 命名 并 缓存 ， 通 过 该 名 称 获取 RDD 或 DataFrame， 这 样 
可 以 提高 对 象 在 作业 间 的 共享 和 重用 。 

支持 Scala 2.10 版 本 和 2.11 版 本 。 





Spark-jobserver 的 部 署 如 下 。 

(1) 复制 conf/local.sh.template 文件 到 local.sh 。 备注 : 如 果 需 要 编译 不 同 版 本 的 Spark， 
则 须 修改 SPARK_ VERSION 属性 。 

(2) 复制 config/shiro.ini.template 文件 到 shiroini。 备 注 : 仅 需 authentication = on 时 执行 


这 一 步 。 


(3) 复制 config/local.conf.template 到 <environment>.conf。 

(4) bin/server deploy.sh <environment>， 这 一 步 将 job-server 以 及 配置 文件 打包 ， 并 一 同 
推送 到 配置 的 远程 服务 器 上 。 

(5) 在 远程 服务 器 上 部 署 的 文件 目录 下 通过 执行 server_start.sh 启动 服务 ， 如 需 关 闭 服 
务 ， 可 执行 server_stop.sh。 

Spark-jobserver 的 各 种 运行 方式 如 下 。 


3 





口 


口 


加 


加 


Docker 模式 : 尝试 使 用 作业 服务 器 预先 打包 Spark 分 发 的 Docker 容器 ， 人 允许 启 动 并 

部 署 。 

本 地 模式 : 在 SBT 内 以 本 地 开发 模式 构建 并 运行 Job Server 。 注 意 : 这 不 适用 于 

YARN， 实 际 上 仅 推荐 spark.master 设置 为 local[*]。 

集群 模式 ， 将 作业 服务 器 部 署 到 集群 ， 有 两 种 部 署 方式 : 

> server deploy.sh 将 作业 服务 器 部 署 到 远程 主机 上 的 目录 。 

> server package.sh 将 作业 服务 器 部 署 到 本 地 的 目录 ， 为 Mesos 或 YARN 部 署 创 
建 .tar.gz。 

EC2 部 署 脚本 : 按照 EC2 中 的 说 明 ， 使 用 作业 服务 器 和 示例 应 用 程序 启动 Spark 

群集 。 

EMR 部 署 指 令 : 按照 EMR 中 的 说 明 进 行 操作 。 


11.3.2 ”Spark 与 Job Server 整合 实战 


本 节 根 据 Spark-jobserver 本 地 模式 ， 在 SBT 内 以 本 地 开发 模式 构建 并 运行 Job Server。 
Spark 与 Job Server 本 地 模式 的 整合 步骤 如 下 。 


1 


Spark-jobserver 本 地 模式 服务 的 启动 


(1) Linux 系统 中 要 先 安 装 SBT。 设 置 当前 版 本 。 
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I export VER=`sbt version | tail -1 | cut -E2 


(2) 在 Linux 系统 中 下 载 安装 Spark-jobserver。Spa 水 -jobserver 的 下 载 地 址 为 https://github. 
com/spark-jobserver/spark-jobserver#users。 

(3) 进 入 spark-jobserver-master 的 安装 目录 , 在 Linux 系统 提示 符 下 输入 sbt, 在 SBT shell 
中 键入 reStart， 使 用 默认 配置 文件 启动 Spark-jobserver 服务 。 可 选 参数 是 奉 代 配置 文件 的 路 
径 ， 还 可 以 在 “---” 之 后 指定 JVM 参数 。 包 括 所 有 选项 如 下 所 示 : 

1. job-server-extras/reStart /path/to/my.conf --- -Xmx8g 


(4) Spark-jobserver 服务 启动 测试 验证 : 在 浏览 器 中 打开 Url 地 址 : http://localhost:8090， 
将 显示 Spark Job Server UI 的 Web 页 面 。 





2. Spark-jobserver 的 示例 WordCountExample 


(1) 首先 ， 将 WordCountExample 代码 (WordCountExample 代码 功能 是 进行 单词 计数 : 
统计 和 输入 字符 串 中 每 个 单词 出 现 的 次 数 ) 打 成 Jar 包 : sbt job-server-tests/package， 然 后 上 传 
jar 包 到 作业 服务 器 。 


1. curl--data-binary@job-server-tests/target/scala-2.10/job-server- tests- 
$VER.jar localhost:8090/jars/test 


(2) 上 述 job-server-tests-$VER.jar 的 jar 包 作为 应 用 程序 test 上 传 服务 器 。 接 下 来 ,开始 
进行 单词 计数 作业 ， 作 业 服 务 器 将 创建 自己 的 SparkContext， 并 返回 一 个 作业 ID， 用 于 后 续 
查询 。 


i curl -d "input.string = ab cab see" "localhost:8090/jobs?appName= 
testgclassPath=spark.jobserver.WordCountExample" 
{ 

"duration": "Job not done yet", 

"classPath": "spark.jobserver.WordCountExample", 

"startTime": "2016-=06=19T16527:12.196+05:30", 

"context": "b7lea0eb5-spark.jobserver.WordCountExample", 

"otatus™: "STARTED”S 

"jobId": "5453779a-f004-45fc-alld-a39dae0f9bf4" 


oo~awm 必 mwN 


Se} 

在 input.string 参数 中 传 入 字符 串 "ab cab see"， 将 字符 串 "ab c ab see" 提 交 给 job-server 
服务 器 的 test 应 用 〈 即 之 前 我 们 上 传 的 WordCountExample 服务 ) ， 然 后 启动 服务 ， 应 用 程 
序 的 jobId 号 是 5453779a-f004-45fc-al1d-a39dae0f9bf4。 

(3) 根据 jobId 号 查询 job-server 服务 器 作业 的 计算 结果 。 在 curl 语句 中 输入 的 jobs 查询 
参数 就 是 上 述 应 用 程序 的 jobId 号 ， 是 5453779a-f004-45fc-alld-a39dae0f9bf4。 


: curl localhost:8090/jobs/5453779a-f004-45fc-alld-a39dae0f9bf4 
2 

和 他 "duratilon” SbaAl seca, 

4. "classPath": "spark.jobserver.WordCountExample", 

i "startTime": "2015-10-=16T03:17:03.1272Z", 

6- "context": "b7ea0eb5-spark.jobserver.WordCountExample"， 

时 omit 

8. "a": 2, 

ls, bd 

0k kd ed 


.405 。 
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135 ie "FINISHED", 

14. "jobId": "5453779a-£f004-45fc-alld-a39dae0f9bf4" 

15。 

从 job-server 服务 器 返回 计算 结果 为 "a": 2 次 , "b": 2 次 ,"c": 1 次 ,"see": 1 次 ， 计 算 结果 
准确 。 上 述 是 异步 模式 获取 计算 结果 ， 须 根据 JobID 号 查询 结果 。 如 果 Spark 分 布 式 计算 数 
据 量 不 是 很 大 ,我们 也 可 以 在 curl 语句 中 配置 参数 &sync=true， 在 POST 到 job-server 服务 请 
求 时 同步 返回 结果 。 

;1 curl -d "input.string = ab cab see" "localhost:8090/jobs?appName= 

testgclassPath=spark.jobserver.WordCountExample&sync=true" 





Job Server 的 更 多 内 容 ， 读 者 可 以 登录 Job Server 的 github 网 站 (https://github.com/ 
spark-jobserver/spark-jobserver#users) 进行 学 习 。 


11.4 Spark 与 Redis 整合 原理 与 实战 


本 节 通 过 生产 环境 实战 案例 讲解 Spark 与 Redis 整合 原理 及 Spark 与 Redis 整合 实战 。 
11.4.1 Spark 与 Redis 整合 原理 


Redis 是 一 个 开源 项 目 (BSD 许可 ) 。Redis 以 内 存 数据 结构 存储 ， 用 作 数 据 库 、 缓 在 和 
消息 代理 。 它 支持 数据 结构 ， 如 字符 串 、 散 列 、 列 表 、 集 合 、 具 有 范围 查询 的 排序 集 、 位 图 、 
超 文本 和 具有 半径 查询 的 地 理 空间 索引 等 。Redis 内 置 复制 、Lua 脚本 、LRU eviction、 事 务 
和 不 同 级 别 的 磁盘 持久 性 ， 通 过 Redis Sentinel 提供 高 可 用 性 ， 并 通过 Redis Cluster 进行 自动 
分 区 。 

Redis 可 以 对 这 些 类 型 运行 原子 操作 ， 如 附加 到 字符 串 、 在 哈 希 中 增加 值 、 将 元 素 推送 
到 列表 中 、 计 算 集 交集 、 联 合 与 差异 于 一 体 ; 或 者 在 排序 集中 获得 最 高 排名 的 成 员 。 

为 了 实现 其 卓越 的 性 能 ，Redis 使 用 内 存 中 的 数据 集 。 根 据 业 务 用 例 ， 可 以 通过 将 数据 
集 一 次 性 转 储 到 磁盘 中 ， 或 通过 将 每 个 命令 附加 到 日 志 来 持久 化 。 如 果 只 需要 功能 丰富 的 网 
络 内 存 缓存 ， 则 可 以 选择 禁用 持久 性 。 

Redis 还 支持 简单 的 主 从 异步 复制 ， 第 一 次 同步 非 阻塞 的 速度 非常 快 ， 网 络 切 分 传输 时 
可 自动 重 连 同步 。 

Redis 的 其 他 功能 包括 : 
事务 Transactions 。 

发 布 /订阅 。 

Lua 脚本 。 

Keys with a limited time-to-live。 
LRU eviction of keys。 

自动 故障 切换 。 





日 日 日 日 日 日 
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大 多 数 编程 语言 可 以 使 用 Redis。 

Redis 以 ANSI C 编写 ， 适 用 于 大 多 数 POSIX 系统 ， 如 Linux、* BSD、OS X， 无 需 外 部 
依赖 。Linux 和 OS XX 是 Redis 开发 和 测试 的 两 个 操作 系统 ， 建 议 使 用 Linux 进行 部 署 。Redis 
可 能 在 诸如 SmartOS 的 Solaris 衍 生 系统 中 工作 , 但 支持 是 尽力 而 为 的 .没有 官方 支持 Windows 
版 本 ， 但 是 Microsoft 开发 并 维护 了 Redis 的 Win-64 端口 。 














11.4.2 ”Spark 与 Redis 整合 实战 


本 节 以 生产 环境 中 Spark 与 Redis 整合 实战 案例 来 讲解 。 在 通信 运营 商 的 Spark 大 数据 项 
目 中 ，Spark 每 分 钟 实时 读 取 Hdfs 中 的 话 单数 据 ， 经 过 业务 罗 辑 代码 分 析 转 换 后 ， 将 清洗 以 
后 的 数据 转换 成 一 个 List 字符 串 列表 ， 然 后 遍历 List 字符 串 列表 ， 将 每 条 记录 拼接 成 一 个 
Key-Value 字符 串 放 入 Redis 队列 。 

Spark 与 Redis 整合 实战 案例 实现 步骤 如 下 。 

(1) 通过 Maven 方式 下 载 Redis 的 jedis 2.6.0 Jar 包 。 

pom.xml 文件 增加 以 下 内 容 : 

<dependency> 

区 <groupId>redis.clients</groupId> 

3 <artifactId>jedis</artifactId> 

4 <version>2.6.0</version> 

5 </dependency> 

: Spark 中 导入 Redis 的 Jar 包 。 


在 

1. import redis.clients.jedis.Jedis; 

import redis.clients.jedis.JedisPool; 

3. import redis.clients.jedis.JedisPoolConfig; 


(2) 在 项 目 config.properties 配置 文件 中 增加 Redis 的 主机 地 址 、 端 口 、 密 码 ， 以 及 Redis 
连接 池 分 配 的 连接 数 、 等 待 时 间 等 信息 。 


1. ## REDIS 
2. redis.ip=100.*.*.100 


3. redis.port=6379 

4. redis.password=password 
i 

6. ## redis 

7. # 最 大 分 配 的 对 象 数 

8 . 


redis.pool.maxTotal=1024 
9. # 最 大 能 够 保持 idle 状态 的 对 象 数 
10. redis.pool.maxIdle=200 


11 . # 当 池内 没有 返回 对 象 时 ， 最 大 等 待 时 间 
12. redis.pool .maxWait=1000 


13 . # 当 调用 borrow Object 方法 时 ， 是 否 进行 有 效 性 检查 


14. redis.pool.testOnBorrow=true 


15. # 当 调用 return Object 方法 时 ， 是 否 进 行 有 效 性 检查 


16. redis.pool.testOnReturn=true 


(3) 编写 RedisServiceImpl 实现 类 ， 从 配置 文件 中 获取 Redis 的 主机 地 址 、 端 口 、 密 码 等 
信息 ; 编写 getFromPool 方法 从 redis 访问 池 中 获取 redis 实例 ; 编写 getSingle 方法 获取 redis 
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public class RedisServiceImpl { 


private static final Map<String, String> REDIS CONFIG = Config. 
getInstance () .getRedisParams (); 
private static final String REDIS IP = REDIS CONFIG.get ("redis.ip"); 
private static final String REDIS PORT = REDIS CONFIG.get ("redis.port"); 
private static final String REDIS PASSWORD = REDIS CONFIG.get ("redis. 
password"); 
private static final int REDIS TIMEOUT = 2000; 
private static Logger 10g = LoggerFactory.getLogger (RedisServiceImpl .class); 
private static JedisPool pool; 
/** 
* 从 redis 访问 池 中 获取 redis 实例 
水 
* Q@return redis 实例 
汪汪 
public static Jedis getFromPool() { 
if (Pool == null) { 
JedisPoolConfig config = new JedisPoolConfig(); 
config.setMaxTotal (Integer .valueOf (REDIS CONFIG.get ("redis. 
pool.maxTotal"))); 
config.setMaxIdle (Integer.valueOf (REDIS CONFIG.get ("redis. 
pool.maxIdle"))); 
config.setMaxWaitMillis (Integer .valueOf (REDIS CONFIG.get ("redis. 
pool .maxWait"))); 
config.setTestOnBorrow (Boolean.valueOf (REDIS CONFIG.get ("redis. 
pool.testOnBorrow"))); 
config. setTestOnReturn (Boolean.valueOf (REDIS CONFIG.get ("redis. 
pool.testOnReturn"))); 
pool = new JedisPool (config, REDIS IP, Integer.valueOf (REDIS_ 
PORT), REDIS TIMEOUT, REDIS PASSWORD); 
} 
return pool.getResource(); 


} 


public static void returnResource (Jedis redis) { 
pool.returnResource (redis); 


} 


/冰冰 


* 获取 redis 实例 

林 

* @return redis 实例 
要 


public static Jedis getSingle() { 
Jedis redis = new Jedis (REDIS IP, Integer.valueOf (REDIS PORT), 
REDIS TIMEOUT); 
redis.auth (REDIS PASSWORD); 
return redis; 


(4) 编写 项 目的 业务 代码 ，RedisBean 类 数据 结构 用 于 要 存放 Redis 的 数据 。 


1. public class RedisBean { 


* 408* 


public void setKey (String key) { 
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3 this.key = key; 

4- } 

I 

6- public void setValue (String value) { 
ya this.value = value; 

8. 1 

9. 

10. public String getKey() { 
3 return key; 

12: 1 

13. 

14. public String getValue() { 
Ls return value; 

16. } 

3。 

了 本 protected String key; 

19. protected String value; 
20. 

2 } 


根据 项 目的 业务 需求 ， 将 Spark 中 提取 转换 后 的 每 条 记录 存 入 业务 数据 结构 RedisBean 
的 key、value 中 ; 然后 加 入 到 RedisBeanList 列表 中 。RedisBeanList 是 List<RedisBean> 
RedisBeanList 类 型 。 
if ("RedisTestQUALINFO".equals (keyType)) { 
RedisBean.key = "RedisTestQUALINFO"; 


RedisBean.value = RedisTestReslut.toString(); 
RedisBeanList.add (RedisBean); 


pODP 


} 


(5) 最 终 调用 业务 方法 addToRedis， 通 过 RedisServiceImpl.getSingle() 获 取 Redis 实例 ， 
然后 循环 遍历 List<RedisBean> 的 每 个 元 素 , 调用 redis.lpush 方法 分 别 将 Key 值 、Value 值 lpush 
到 Redis 中 。1Push 完成 以 后 ， 通 过 redis.close 关闭 连接 。 


public static void addToRedis (List<RedisBean> redisBeanList) { 
Jedis redis = RedisServiceImpl .getSingle(); 
for (RedisBean redisData : redisBeanList) { 
redis.lpush (redisData.getKey(), redisData.getValue()); 
} 


redis.close(); 


~IOwm 必 wm 请 


上 


(6) Redis 业务 验证 :可 以 登录 到 Redis 系统 中 ， 查 询 数据 已 持久 化 至 Redis。 


:6 redis-cli -h 100.*.*.100 -p 6379 -a 'password' 
2. select 0 --- 切 换 到 0 库 

3. keys * -=-- 列 出 所 有 的 key 

4. lrange CDNNODEQUALINFO 0 -1 查看 所 有 的 记录 


* 409 。 
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Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 


Spark 2.2 实战 之 Dataset 开发 实战 企业 人 员 管 理 系统 
应 用 案例 


Spark 商业 案例 之 电 商 交互 式 分 析 系 统 应 用 案例 


Spark 商业 案例 之 NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 
案例 


电 商 广告 点 击 大 数据 实时 流 处 理 系统 案例 











Spark 在 通信 运营 商 生产 环境 中 的 应 用 案例 





























使 用 Spark GraphXx 实现 婚恋 社交 网 络 多 维度 分 析 案 例 


第 12 章 Spark 商业 案例 之 大 数据 电影 点 评 
系统 应 用 案例 


本 章 讲解 Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 。 电 影 点 评 系统 可 通过 各 种 方 
式 实现 ， 如 纯粹 通过 RDD 的 方式 实现 、 通过 DataFrame 和 RDD 相 结合 的 方式 实现 、 纯 粹 
使 用 DataFrame 方式 实现 、 纯 粹 通过 DataSet 方式 实现 等 。 综 合 应 用 实现 大 数据 电影 点 评 系 
统 的 功能 : 统计 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 的 人 数 、 计 算 所 有 电影 中 平均 得 分 
最 高 (口碑 最 好 ) 的 电影 TopN、 计 算 最 流行 电影 〈 即 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 ) 
的 电影 TopN、 实 现 所 有 电影 中 最 受 男性 、 女 性 喜爱 的 电影 TopN、 实 现 所 有 电影 中 QQ 或 者 
微 信 核心 目标 用 户 最 喜爱 电影 TopN 分 析 、 实 现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 
TopN 分 析 、 电 影 点 评 系统 实现 Java 和 Scala 版 本 的 二 次 排序 系统 等 。 





12.1 通过 RDD 实现 分 析 电 影 的 用 户 行为 信息 


在 本 节 中 ， 我 们 首先 找寻 IDEA 的 开发 环境 。 电 影 点 评 系统 基于 IDEA 开发 环境 进行 开 
发 ， 本 节 对 大 数据 电影 点 评 系统 中 电影 数据 格式 和 来 源 进行 了 说 明 ， 然 后 通过 RDD 方式 实 
现 分 析 电 影 的 用 户 行 为 信息 的 功能 


12.1.1 搭建 IDEA 开发 环境 


1. IntelliJ IDEA 环 境 的 安装 


如 图 12-1 所 示 ， 登 录 IDEA 的 官网 ， 打 开 http:/www.jetbrains.com/idea/ 网 站 ， 单 击 
DOWNLOAD 进行 IDEA 的 下 载 。IDEA 全 称 IntelliJ IDEA， 是 Java 语言 开发 的 集成 环境 ， 
具备 智能 代码 助手 、 代 码 自 动 提示 、 重 构 、J2EE 支持 、Ant、JUnit、CVS 整合 、 代 码 审查 等 
方面 的 功能 ， 支 持 Maven、Gradle 和 STS， 和 集成 Git、SVN、Mercurial 等 ， 在 Spark 开发 程 
序 时 通常 使 用 IDEA。 单 击 DOWNLOAD 下 载 ， 下 载 安装 包 以 后 根据 IDEA 安装 提示 一 步 步 








图 12-1 IDEA 的 官网 


第 12 章 “Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 








IDEA 在 本 地 计算 机 上 安装 完成 以 后 , 打开 IDEA 的 默认 显示 主题 风格 是 Darcula 的 主题 
格式 ， 也 是 众多 IDEA 开发 者 喜欢 的 格式 。 但 为 了 便于 读者 阅读 ， 这 里 将 IDEA 的 显示 主题 
风格 调整 为 IntelliJ 格式 ， 单 击 File 一 Settings 一 Appearance 一 Theme 一 ImmtelliJ， 这 样 书本 纸 质 
显示 更 清晰 ， 如 图 12-2 所 示 。 
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图 12-2 修改 IDEA 显示 主题 格式 


IDEA 安装 完成 , 在 Windows 系统 中 完成 Windows JDK 的 安装 与 配置 。 安 装 和 配置 完成 
以 后 ， 测 试验 证 JDK 能 和 否 在 设备 上 运行 。 选 择 “开始 ”一 “和 运行” 命令， 在 运行 窗口 中 输入 
CMD 命令 ， 进 入 DOS 环境 ， 在 命令 行 提示 符 中 直接 输入 java-version， 按 回 车 键 ， 系 统 会 显 
示 JDK 的 版 本 ， 说 明 JDK 已 经 安装 成 功 ， 如 下 所 示 。 

C:\Windows\System32>java -version 
java version "1.8.0 121" 


Java (TM) SE Runtime Environment (build 1.8.0 121-b13) 
Java HotSpot (TM) 64-Bit Server WM (build 25.121-bl3, mixed mode) 


AODP 


2. 新 建 Maven 工 程 (SparkApps 工 程 ) ， 导 入 Spark 2.0 相 关 JAR 包 及 源码 
(1) 在 IDEA 菜单 栏 中 新 建 工 程 ， 单 击 File 一 Project， 如 图 12-3 所 示 。 








t from Existing Sources 


Open Recent bProject from Version Controel b! 
Close Project Nodule j 
学 Settings Ctrl+ALt+S Wodule from Existing Sources. 


图 12-3 新 建 工 程 
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(2) 在 弹出 的 New Project 对 话 框 中 选择 Maven 方式 ， 单 击 Next 按钮 ， 如 图 12-4 所 示 。 
[DEL 习 
Bs Jav= Prejeet Sm [ 杜 1.8 Gsva versien -1.8.0_1217) 上 日 Jies 
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图 12-4 选择 Maven 方式 
(3) 在 弹出 的 对 话 框 中 输入 GroupId 及 Artifactd， 如 图 12-5 所 示 。 














GroupId [SparkApps 国 Diori' 
ArtifactId [SparkAr’ 














Version 1 0-SHAPSHOT Irherit 





[em WN ee Lo | 


图 12-5 输入 GroupId 及 ArtifactId 


.414 


第 12 章 “Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 











(4) 在 弹出 的 对 话 框 中 输入 工程 名 及 工程 保存 位 置 ， 单 击 Finish 按钮 完成 ， 如 图 12-6 
所 示 。 
TTT 当 


rejeet mame: [Se ] 


Project location: [© TWD: Dutasper i201 Sp er Arp es 




















Mars Settings 





ED EY ED Cs 





图 12-6 输入 工程 名 及 工程 保存 位 置 


(5) 在 SparkApps 工程 中 设置 Maven 配置 参数 。 单 击 File 一 Settings 一 Build,Execution, 
Deployment 一 Maven 一 User settings file 及 Local repository， 输 入 用 户 配 置 文件 及 本 地 库 保 存 
地 址 ， 如 图 12-7 所 示 。 


Q ) Build, Execation, Deyleyuent » Build Torls ) Wavea Dior cremt project 








Taratoa Control 口 w sai 
ER 
Oe maen zeastry 
aaakpaud a 
加 peere tous recrsivly 
Tertd Tiles a 
ee Diat seep vark weees 


日 | 口 ae wante paot 
下 由 omy ie 3 | 
本 Checksmn poliey- ie Global Peliey 
mt 下 Coa | 
Pn Mtiproieet baild ful oicr [Eeeaat | 
Bde Boein wate piey ET 四 := 
eatien，Dagleymeat a Tl 


Naven hwme directory’ /fro on Files (x05)/TetBrains/Intel1iT IDIA Commity Edition 2016.3 2/plveias/navenLib/nnn 


chengelist corfiets 
人 ah 
cs 





TY Build 











erie 3 
] omite 


] owerite 


User gettiags file [VSpe Whaven2017 

















Local repasitary FVSperavenodlT reposi 








到 下 
T Campiler 下 
alate 
Ta Comil 


图 12-7 输入 用 户 配置 文件 及 本 地 库 保存 地 址 
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其 中 ，setting.xml 代码 完整 的 配置 内 容 如 例 12-1 所 示 。 
【 例 12-1】setting.xmll 文件 内 容 。 


1. <?xml version="1.0" encoding="UTF-8"?> 

2. <settings xmlns="http://maven.apache.org/SETTINGS/1.0.0" 

3 xmlns:xsi="http://www.w3.0org/2001/XMLSchema-instance" 

4 xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 
http://maven.apache.org/xsd/settings-1.0.0.xsd"> 

5. <localRepository>F:\SparkMaven2017\repository64bit</localRepository> 

6. </settings> 


(6) 在 SparkApps 工程 中 单 击 pom.xml， 编 辑 pom.xml 文件 ， 如 图 12-8 所 示 。 








了 ia Refaeter Build Run Iools VCS Binaos Help 





BM sparlrwarehonse 
二 Sparkkpps iml 
ma are 
pb Mtareet 
» Ml External Libraries 


I: Structure 





图 12-8 编辑 pom 文件 


pom 代表 “项 目 对 象 模型 ”。 这 是 一 个 文件 名 为 pom.xml 的 Maven 项 目的 XML 表示 形 
式 。 在 Maven 系统 中 ， 一 个 项 目 除 了 代码 文件 外 ， 还 包含 配置 文件 ， 包 括 开 发 者 需要 遵循 的 
规则 、 缺 陷 管 理 系统 、 组 织 和 许可 证 、 项 目的 url、 项 目的 依赖 ， 以 及 其 他 所 有 的 项 目 相关 因 
素 。 在 Maven 系统 中 ， 项 目 不 需 要 包含 代码 ， 只 是 一 个 pom.xml。pom.xml 包括 了 所 有 的 项 
目 信息 。 

本 书 的 案例 基于 Maven 方式 进行 开发 , 项 目 中 依赖 的 JAR 包 都 从 pom.xml 中 下 载 获取 ， 
这 里 提供 了 一 份 完整 的 pom.xml 文件 ， 读 者 可 以 根据 pom.xml 文件 搭建 开发 环境 ， 测 试 运行 
本 书稿 的 各 综合 案例 。 

pom.xml 代码 完整 的 配置 内 容 如 例 12-2 所 示 。 

【 例 12-2】pom.xml 文件 内 容 。 


1. <?xml version="1.0" encoding="UTF-8"?> 

2. <project xmlns="http://maven.apache.org/POM/4.0.0" 

3 xmlns:xsi="http://www.w3.0rg/2001/XMLSchema-instance" 

4 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven. 
apache.org/xsd/maven-4.0.0.xsd"> 

海区 <modelVersion>4.0.0</modelVersion> 
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6. 性 生 = 基础 配置 一 > 


人 <groupId>2017SparkCasel100</groupId> 

8 <artifactId>2017SparkCase100</artifactId> 

9. <version>1 .0-SNAPSHOT</version> 

10. 

.1 <properties> 

12。 <scala.version>2.11.8</scala.version> 

了 <spark.version>2.1.0</spark.version> 

14. <jedis.version>2.8.2</jedis.version> 

5 <fastjson.version>1.2.14</fastjson.version> 
16. <jetty.version>9.2.5.v20141112</jetty.version> 
kT <container.version>2.17</container.version> 
上: 光 <java.version>1.8</java.version> 

19. </properties> 

过 

2 <repositories> 

2 <repository> 

23: <id>scala-tools.org</id> 

24. <name>Scala-Tools Maven2 Repository</name> 
2 <url>http://scala-tools.org/repo-releases</url> 
26. </repository> 

2 </repositories> 

2 

295 <pluginRepositories> 

30. <pluginRepository> 

3 <id>scala-tools.org</id> 

ci <name>Scala-Tools Maven2 Repository</name> 
3 <url>http://scala-tools.org/repo-releases</url> 
34. </pluginRepository> 

3 </pluginRepositories> 

36. <!-- 依赖 关系 --> 

ST <dependencies> 

38. <!-- put javax.ws.rs as the first dependency, it is important!!! --> 
39. <dependency> 

40. <groupId>javax.ws.rs</groupId> 

41- <artifactId>javax.ws.rs-api</artifactId> 
42. <version>2.0</version> 

3 </dependency> 

44. 

45. <dependency> 

46. <groupId>org.scala-lang</groupId> 

Ts <artifactId>scala-library</artifactId> 

48 . <version>${scala.version}</version> 

49. </dependency> 

50. <dependency> 

SL <groupId>org.scala-lang</groupId> 

5 <artifactId>scala-compiler</artifactId> 

上 公证 <version>${scala.version}</version> 

54. </dependency> 

S55 <dependency> 

56. <groupId>org.scala-lang</groupId> 

SS <artifactId>scala-reflect</artifactId> 

性 <version>${scala.version}</version> 

D9 </dependency> 

60 . 

下 <dependency> 

| 人 <groupId>org.scala-lang</groupId> 

(站 淄 <artifactId>scalap</artifactId> 

64. <version>${scala.version}</version> 
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</dependency> 


<dependency> 
<groupId>junit</groupId> 
<artifactId>junit</artifactId> 
<version>4.4</version> 
<scope>test</scope> 
</dependency> 
<dependency> 
<groupId>org.specs</groupId> 
<artifactId>specs</artifactId> 
<version>1.2.5</version> 
<scope>test</scope> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-core 2.11</artifactId> 
<version>${spark.version}</version> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-launcher 2.11</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-network-shuffle 2.11</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-sql 2.11</artifactId> 
<version>${spark.version}</version> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-hive 2.11</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-catalyst 2.11</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
<groupId>org-apache .spark</groupId> 
<artifactId>spark-streaming-flume-assembly 2.11</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
<groupId>org-apache .spark</groupId> 
<artifactId>spark-streaming-flume 2.11</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
<groupId>org-apache .spark</groupId> 
<artifactId>spark-streaming 2.11</artifactId> 
<version>${spark.version}</version> 
</dependency> 
<dependency> 


第 12 章 ”Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 








125 . 
126 . 
275 
1285 
Ted 
130. 
le 
3 
LSS 
134. 
L355 
136. 
L375 
L338 
L390. 
140. 
Tas 
142. 
L435 
44. 
45 . 
146 . 
47. 
48 . 
149 . 
S50 
i 
S23 
上 区 
54. 
De 
二 娩 汉 
多 
Oe 
60 . 
625 
635 
64. 
人 5 
66 . 
67-. 
68 . 
69-= 
70 . 
ls 
2 
3 
人 
和 人 
TG 
LT 
LT78e 
LT 
180. 
L815 
2 
183. 
184. 





<groupId>org-apache .spark</groupId> 
<artifactId>spark-graphx 2.11</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
<groupId>org.scalanlp</groupId> 
<artifactId>breeze 2.11</artifactId> 
<version>0.11.2</version> 
<scope>compile</scope> 
<exclusions> 
<exclusion> 
<artifactId>junit</artifactId> 
<groupId>junit</groupId> 
</exclusion> 
<exclusion> 
<artifactId>commons-math3</artifactId> 
<groupId>org.apache.commons</groupId> 
</exclusion> 
</exclusions> 
</dependency> 
<dependency> 
<groupId>org.apache .commons</groupId> 
<artifactId>commons-math3</artifactId> 
<version>3.4.1</version> 
<scope>compile</scope> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-mllib 2.11</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-mllib-local 2.11</artifactId> 
<version>2.1.0</version> 
<scope>compile</scope> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-mllib-local 2.11</artifactId> 
<version>2.1.0</version> 
<type>test-jar</type> 
<scope>test</scope> 
</dependency> 
<dependency> 
<groupId>org.-apache .spark</groupId> 
<artifactId>spark-repl 2.11</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
<groupId>org-apache .hadoop</groupId> 
<artifactId>hadoop-client</artifactId> 
<version>2.6.0</version> 
</dependency> 
<dependency> 
<groupId>org-apache .spark</groupId> 
<artifactId>spark-streaming-kafka-0-8_2.10</artifactId> 
<version>2.1.0</version> 
</dependency> 
<dependency> 
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895: <groupId>org-apache .spark</groupId> 

186 . <artifactId>spark-streaming-flume 2.11</artifactId> 

4897. <version>${spark.version}</version> 

188. </dependency> 

189. <dependency> 

190. <groupId>mysql</groupId> 

191. <artifactId>mysql-connector-java</artifactId> 

3 <version>5.1.6</version> 

193. </dependency> 

194. <dependency> 

195. <groupId>org.apache.hive</groupId> 

196. <artifactId>hive-jdbc</artifactId> 

197. <version>1.2.1</version> 

198. </dependency> 

.99 <dependency> 

200. <groupId>org.apache.httpcomponents</groupId> 

201. <artifactId>httpclient</artifactId> 

202» <version>4.4.1</version> 

2035 </dependency> 

204. <dependency> 

2055 <groupId>org.apache.httpcomponents</groupId> 

206 . <artifactId>httpcore</artifactId> 

区 0 <version>4.4.1</version> 

208 . </dependency> 

O95 

2105 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/ 
hadoop- common 一 -> 

Es <dependency> 

这 <groupId>org.-apache .hadoop</groupId> 

Le <artifactId>hadoop-common</artifactId> 

A <version>2.6.0</version> 

和 25 </dependency> 

sa 

汪汪 <dependency> 

pi 有: 这 <groupId>org.apache.hadoop</groupId> 

2T95 <artifactId>hadoop-client</artifactId> 

220 . <version>2.6.0</version> 

2 </dependency> 

这 22 

2235 <!--https://mvnrepository.-coryVartifact/org.apache.hadoop/hadoop-hdfs--> 

224. <dependency> 

25 <groupId>org.apache.hadoop</groupId> 

这 <artifactId>hadoop-hdfs</artifactId> 

227: <version>2.6.0</version> 

228. </dependency> 

2295 

2Z30E5 

we <dependency> 

Ss <groupId>redis.clients</groupId> 

3 <artifactId>jedis</artifactId> 

ZA <version>${jedis.version}</version> 

3 </dependency> 

236. <dependency> 

Za <groupId>org.json</groupId> 

238 . <artifactId>json</artifactId> 

239. <version>20090211</version> 

240. </dependency> 

241. <dependency> 


.420 


第 12 章 ”Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 








人 
243. 
244. 
245. 
246. 
247. 
248. 
249. 
之 有 
2 
2 
34 
254. 
人 25 
和 
2 
5 
9 
260. 
261- 
Os 
263s 
264. 
265. 
266. 
过 GT 
268. 
269. 
这 光村 
IT 
2 
2 
274. 
本 上 上 六 
2 
2 
0 
S798 
280 . 
281 . 
2 
283 . 
284. 
285. 
人 22865 
2 
288. 
289. 
290 
之 9 
02 


<groupId>com. fasterxml .jackson.core</groupId> 
<artifactId>jackson-core</artifactId> 
<version>2.6.3</version> 

</dependency> 

<dependency> 
<groupId>com. fasterxml .jackson.core</groupId> 
<artifactId>jackson-databind</artifactId> 
<version>2.6.3</version> 

</dependency> 

<dependency> 
<groupId>com. fasterxml .jackson.core</groupId> 
<artifactId>jackson-annotations</artifactId> 
<version>2.6.3</version> 

</dependency> 

<dependency> 
<groupId>com.alibaba</groupId> 
<artifactId>fastjson</artifactId> 
<version>1.1.41</version> 

</dependency> 

<dependency> 
<groupId>fastutil</groupId> 
<artifactId>fastutil</artifactId> 
<version>5.0.9</version> 

</dependency> 

<dependency> 
<groupId>org.eclipse.jetty</groupId> 
<artifactId>jetty-server</artifactId> 
<version>$ {jetty.version}</version> 

</dependency> 


<dependency> 
<groupId>org.eclipse.jetty</groupId> 
<artifactId>jetty-servlet</artifactId> 
<version>$ {jetty.version}</version> 
</dependency> 


<dependency> 
<groupId>org.eclipse.jetty</groupId> 
<artifactId>jetty-util</artifactId> 
<version>${jetty.version}</version> 
</dependency> 


<dependency> 
<groupId>org-glassfish.jersey.-core</groupId> 
<artifactId>jersey-server</artifactId> 
<version>${container.version}</version> 

</dependency> 

<dependency> 
<groupld>org.glassfish.jersey.containers</groupId> 
<artifactId>jersey-container-servlet-core</artifactId> 
<version>${container.version}</version> 


.421 . 


中 篇 “商业 案例 








35 
294. 
295.. 
296% 
297- 
有 
人 99 
300. 
SD 
302. 
035 
304. 
S05 
306. 
S07 
308. 
309: 
310 . 
< 
S125 
SE 
SE 
SEE 
<h 
3 下 全 
3L8= 
3195 
320E 
2 
号 2 2 
323< 
324: 
3252 
3268 
327e 
328 . 
3 
3305 
331= 
3325 
3338 
334. 
335- 
336< 
3 
338 . 
8 
340 . 
341. 
342< 
343. 
344. 
345. 
346. 
347- 
348. 
349. 


“A422 


</dependency> 

<dependency> 
<groupId>org.glassfish.jersey.containers</groupId> 
<artifactId>jersey-container-jetty-http</artifactId> 
<version>${container.version}</version> 

</dependency> 

<dependency> 
<groupId>org.apache.hadoop</groupId> 
<artifactId>hadoop-mapreduce-client-core</artifactId> 
<version>2.6.0</version> 

</dependency> 


<dependency> 
<groupId>org.antlr</groupId> 
<artifactId>antlr4-runtime</artifactId> 
<version>4.5.3</version> 

</dependency> 


</dependencies> 
<!-- 编译 配置 --> 
<build> 
<plugins> 
<plugin> 
<artifactId>maven-assembly-plugin</artifactId> 
<configuration> 
<classifier>dist</classifier> 
<appendAssemblyId>true</appendAssemblyId> 
<descriptorRefs> 
<descriptor>jar-with-dependencies</descriptor> 
</descriptorRefs> 
</configuration> 
<executions> 
<execution> 
<id>make-assembly</id> 
<phase>package</phase> 
<goals> 
<goal>single</goal> 
</goals> 
</execution> 
</executions> 
</plugin> 


<plugin> 
<artifactId>maven-compiler-plugin</artifactId> 
<configuration> 
<source>1.7</source> 
<target>1.7</target> 
</configuration> 
</plugin> 


<plugin> 
<groupId>net .alchim31.maven</groupId> 
<artifactId>scala-maven-plugin</artifactId> 
<version>3.2.2</version> 
<executions> 
<execution> 
<id>scala-compile-first</id> 
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<phase>process-resources</phase> 
<goals> 
<goal>compile</goal> 
</goals> 
</execution> 
</executions> 
<configuration> 
<scalaVersion>${scala.version}</scalaVersion> 
<recompileMode>incremental</recompileMode> 
<useZincServer>true</useZincServer> 
<args> 
<arg>-unchecked</arg> 
<arg>-deprecation</arg> 
<arg>-feature</arg> 
</args> 
<jvmArgs> 
<jvmArg>-Xms1024m</jvmArg> 
<jvmArg>-Xmx1024m</jvmArg> 
</jvmArgs> 
<javacArgs> 
<javacArg>-source</javacArg> 
<javacArg>$ {java.version}</javacArg> 
<javacArg>-target</javacArg> 
<javacArg>$ {java.version}</javacArg> 
<javacArg>-Xlint:all,-serial, -path</javacArg> 
</javacArgs> 
</configuration> 
</plugin> 


<plugin> 
<groupId>org.antlr</groupId> 
<artifactId>antlr4-maven-plugin</artifactId> 
<version>4.3</version> 
<executions> 
<execution> 
<id>antlr</id> 
<goals> 
<goal>antlr4</goal> 
</goals> 
<phase>none</phase> 
</execution> 
</executions> 
<configuration> 
<outputDirectory>src/test/java</outputDirectory> 
<listener>true</listener> 
<treatWarningsAsErrors>true</treatWarningsAsErrors> 
</configuration> 
</plugin> 


</plugins> 
</build> 


</project> 


(7) 在 pomxml 中 ， 按 Ctrl+S 快捷 键 保存 pom.xml 文件 ，IDEA 会 自动 从 网 上 下 载 各 类 
Jar 包 ， 下 载 的 时 间 根 据 网 络 带 宽 的 情况 可 能 需要 几 十 分 钟 ， 也 可 能 需要 几 个 小 时 ， 全 部 下 载 
好 以 后 ， 可 以 看 到 工程 中 Extermal Libraries 已 经 加 载 了 Spark 相关 的 Jar 包 及 源码 ， 如 图 12-9 


所 示 。 
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project 


1 xsi:schemaLocation= http://maven apache. org/POM/4. 0.0 htt 
5 modelVersion’4. 0. 0¢/nodelVersion> 


到 《groupId>2017SparkCase100</groupId> 
3 artifactId>2017SparkCasel00C/artifactId> 
9 《version21. 0-SNAPSHOTC/ version> 





12 《scala version>2. 11.8¢/scala. version> 
13 Cspark. version)? 
Ea Cjedis. version>2.8. 24/jedis. version》 

15 {fastjson. version’1. 2. 14¢/fastjson. version> 


1.0C/spark. version> 


Cjetty. version>9. 2. 5. v20141112</ jetty. version> 
《container- version22. 17¢/container. version> 
《java version>1.8《/ java. version> 





加 





1 《repositories> 


22 &reoository> 


图 12-9 使 用 Maven 方式 加 载 Jar 包 


3. 在 SparkApps 工 程 中 建立 scala 目 录 


单 击 SparkApps 工程 下 的 src/main 目录 ， 右 击 main， 从 弹 


Directory 命令 ， 新 建 一 个 目录 scala， 如 图 12-10 所 示 。 





快捷 菜单 中 选择 New 一 





v aSperkApps G: \IMFBieDataSpark2017\SparkApps 
» Midea 
了 Mdata 
» Ml basketball_tnp 
Ml noviedata 
Ml EABasketball 
Ml web-Google 


Dpom. xml 


vv 


加 copy 


Copy Path 


Ml sparlrwarehouse 
而 SparkaApps iml 





图 12-10 ”新建 目 录 


Ctrl+Shi ft+C 





project ||prope 


1 XSi: 
5 <modelVe: 











WH cunt Ctrlt 


ctrlc 访 INL File 
GB Seala Worksheet 


祷 Seala Seript 


v Msrec Copy as Plain Text 
于 Mnain CopY Relative Path CtrltAlttShift#C YSalt Wireframe 
Ml java Paste Ctrlty UNL Activity 
Beresources Find Usages AlttF7 TUML Class 
>» 大 scala Find in Path .. CtrltshifttF | T UL Cempenent 
» Mtest Replace in Path CtrltShifttR 和 UNL Sequence 
» Mtareet Analyze » EP UML State 


之 UNL Use Case 


单 击 SparkApps 工程 下 的 src/main/scala 目录 , 右 击 scala, 从 弹出 的 快捷 菜单 中 选择 Mark 
Directory as 一 Resource Root 命令 ,标识 目录 scala 为 源码 目录 。 至 此 ，IDEA 本 地 开发 环境 搭 


建 完成 ， 如 图 12-11 所 示 。 
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起 Sparkapps inl Replace in Path Ctrl+Shi ft+R 
TY Msre Analyze 
T Mnain 了 efacter 
和 java Add to Favorites 
eresources Show Image Thunbnails CtrltShiEttT 
>» Mscadla Reformat Code Ctrl+NLtHL 
» 加 test Optimize Imperts CtrltAltt0 
bp Mtereet Delete. Delete 
w NExternal Libraries Build Module “SparkApps 
Pp B18 > CProgo Files\Javajdrl si fevaild caeteley CtrltShifttF9 
p> MMeven: antlr:antlr:2.7.7 j> mm 
> 由 Debue 
人 un with Coverage 
> Create Run Configuration 
p Local Histery 
> 5 Synchronize scale’ 
S om alibaba: fastjson:1, 1. 4 ne TS 
bp MMaven: com clearspring analytics: streal 3 
豆 Direetery Path CtrltALttF12 
Run (Eo xovie_Users_Analyser 
EY 本 Conpare With .. CtrltD 
，| » ”对 电影 评分 数据 以 Tinestamp 和 Rating8 两 个 BM Excluded 
Open Module Settings 了 4 Unmark as Sources Root 









OE: TOD 局 ANTLR Freview 





BS Generated Sources Root 


| Mark dirartarw oe a reacamrree rant 


图 12-11 设置 为 代码 目录 


12.1.2 大 数据 电影 点 评 系统 中 电影 数据 说 明 


1. 大 数据 电影 点 评 系统 电影 数据 的 来 源 


电影 推荐 系统 (MovieLens) 是 美国 明尼苏达 大 学 (Minnesota) 计算 机 科学 与 工程 学 院 
的 GroupLens 项 目 组 创办 的 ， 是 一 个 非 商业 性 质 的 、 以 研究 为 目的 的 实验 性 站 点 。 电 影 推荐 
系统 主要 使 用 协同 过 滤 和 关联 规则 相 结合 的 技术 ， 向 用 户 推荐 他 们 感 兴 趣 的 电影 。 这 个 项 目 
是 由 John Riedl 教授 和 Joseph Konstan 教授 领导 的 。 该 项 目 从 1992 年 开始 研究 自动 化 协同 过 
滤 ， 在 1996 年 使 用 自动 化 协同 过 滤 系 统 应 用 于 USENET 新 闻 组 中 。 自 那 以 后 ， 项 目 组 扩大 
了 研究 范围 ， 基 于 内 容 方 法 以 及 改进 当前 的 协作 过 滤 技 术 来 研究 所 有 的 信息 过 滤 解 决 方案 。 

电影 推荐 系统 (MovieLens) 的 数据 下 载 地 址 为 : https://grouplens.org/datasets/movielens/。 
GroupLens 项 目 研究 收集 了 从 电影 推荐 系统 MovieLens 站 点 提供 评级 的 数据 集 
(http://MovieLens.org) ， 收 集 了 不 同时 间 段 的 数据 ， 我 们 可 以 根据 电影 分 析 业 务 需 求 下 载 不 
同 规模 大 小 的 数据 源 文件 。 


2. 大 数据 电影 点 评 系统 电影 数据 的 格式 说 明 


这 里 下 载 的 是 中 等 规模 的 电影 推荐 系统 数据 集 。 在 本 地 目录 moviedata/medium 包含 的 电 
影 点 评 系 统 数据 源 中 提供 了 在 2000 年 6040 个 用 户 观 看 约 3900 部 电影 发 表 的 1 000 209 条 匿 
名 评级 数据 信息 。 

评级 文件 ratings.dat 的 格式 描述 如 下 。 

1. UserID::MovieID::Rating::Timestamp 

2. 用户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 

3. 一 用户 ID 范 围 在 1 一 6040 之 间 

4. -=- 电影 ID 范围 在 1 一 3952 之 间 
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号 
晤 过 
了 < 


=- 评级 : 使 用 五 星 评分 方式 
- 时 间 惟 表示 系统 记录 的 时 间 
- 每 个 用 户 至 少 有 20 个 评级 


评级 文件 ratings.dat 中 摘 取 部 分 记录 如 下 。 


FocwawmcwN 


0. 


Log 5976300760 
on BR det 1) 
sl:I1030L968 
:3408: 54::978300275 
:32355;:5::978824291 
:L9153°978302268 
L215:018302039 
S208045=:55:978300719 
2 95942342978302268 
La SBSDOELS6S 


FF 





用 户 文件 users.dat 的 格式 描述 如 下 。 


通史 
2 
3 


UserID: :Gender: :Age: :Occupation::Zip-code 


用 户 ID、 性别、 年龄、 职业、 邮编 代码 


-所 有 的 用 户 资料 由 用 户 自愿 提供 ， GroupLens 项 目 组 不 会 去 检查 用 户 数 据 的 准确 性 。 这 个 数 


据 集中 包含 用 户 提供 的 用 户 数据 
0 A as a es 


* 18: "18 年 龄 段 ， 从 18 岁 到 24 岁 " 
25: "25 年 龄 段 ， 从 25 岁 到 34 岁 " 
35: "35 岁 年 龄 段 : 从 35 岁 到 44 岁 " 


50: "50 岁 年 龄 段 ， 从 50 岁 到 55 岁 " 
56: "56 岁 年 龄 段 : 大 于 56 岁 " 


加 
. * 45: "45 岁 年 龄 段 ， 从 45 岁 到 49 岁 " 
水 
* 


从 用 户 文件 users.dat 中 摘 取 部 分 记录 如 下 。 


Foc~wawm 必 wm 请 


二 / 


6 L10348067 
Dy TR 
2 
se TO02A60 
S220: :355955 
50 97557 
Pe SC9U 
3 
32522172261614 
0: Sl:95370 


Se 
DD 
a 


Se 
3 
省 
三 
6 
Ws 
SE 
DE 
1 


电影 文件 movies.dat 的 格式 描述 如 下 。 


间 coo~awm 必 wm 


Ey 
[= 
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MovieID: :Title: :Genres 

电影 ID、 电 影 名 、 电 影 类 型 

-标题 是 由 亚马逊 公司 的 互联 网 电影 资料 库 〈IMDB) 提供 的 ， 包 括 电影 发 布 年 份 
-电影 类 型 包括 以 下 类 型 

Action: 行动 

Adventure: 冒险 

Animation: 动画 

Children's: 儿童 

Comedy: 喜剧 

Crime: 犯罪 


闪闪 
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11. * Documentary: 纪录 片 
12. * Drama: 戏剧 

13. * Fantasy: 幻想 

14. * Film-Noir: 黑色 电影 
15. * Horror: 恐怖 

16. * Musical: 音乐 

17. * Mystery: 神秘 

18. * Romance: 浪漫 

19. * Sci-Fi: 科幻 

20. * Thriller: 惊悚 

21. * War: 战争 

22. * Western: 西方 


23. -由 于 偶然 重复 的 电影 记录 或 者 电影 记录 测试 ， 一 些 电影 ID 和 电影 名 可 能 不 一 致 。 
24. -电影 记录 大 多 是 GroupLens 手工 输入 的 ， 因 此 不 一 定 准确 。 


电影 文件 movies.dat 中 摘 取 的 部 分 记录 如 下 。 


1::Toy Story (1995)::Animation|lChildren'slComedy 
2 umanji (1995)::AdventurelChildren's|Fantasy 
3::Grumpier Old Men (1995) : :Comedy1Romance 
4::Waiting to Exhale (1995) ::Comedy1Drama 
5::Father of the Bride Part II (1995) : :Comedy 
6::Heat (1995) ::RAction1Crime1Thriller 
8 
昌 
1 






: :Sabrina (1995) : :Comedy1Romance 

::Tom and Huck (1995)::AdventurelChildren's 
::Sudden Death (1995) : :Action 

0::GoldenEye (1995)::Action|lAdventure|Thriller 


Fowawm 必 wm 


0. 


职业 文件 occupations.dat 的 格式 描述 如 下 。 


1. OccupationID: :Occupation 
2. 职业 ID、 职 业 名 

3. -职业 包含 如 下 选择 : 

4. * 0: “其 他 ”或 未 指定 
5. * 1: “学 术 / 教 育 者 ” 
6. * 2: “艺术 家 ” 

yh ein 

8. * 4: “高 校 毕 业 生 ” 

9. * 5; “客户 服务 ” 

10. * 6: “医生 /保健 ” 

11. * 7: “行政 /管理 ” 
T2093“ 农民” 

13. * 9: “家 庭 主妇 ” 

14. * 10: “中 小 学 生 ” 

15. * 11: “律师 ” 

16. * 12: “程序 员 ” 

17. * 13: “退休 ” 

18. * 14: “销售 /市 场 营销 ” 
19. * 15: “科学 家 ” 

2002 6 个体 户 ” 

21. * 17: “技术 员 / 工 程 师 ” 
22. * 18: “商人 和 工匠 ” 
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2300 19 “Re 
24. * 20: “作家 ” 


从 职业 文件 occupations.dat 中 摘 取 部 分 记录 如 下 。 


1. 0::other or not specified 
2. 1::academic/educator 
2 
4. 3::clerical/admin 
5. 4::college/grad student 
6. 5::customer service 
7. 6::doctor/health care 
8. 7::executive/managerial 
9. 8::farmer 
10. 9::homemaker 
11. 10::K-=12 student 
12. 11::lawyer 
13. 12::programmer 
14. 13::retired 
15. 14::sales/marketing 
16:: 152:scientist 
17. 16::self-employed 
18. 17::technician/engineer 
19. 18::tradesman/craftsman 
20. 19::unemployed 

20 


: :writer 
12.1.3 ”电影 点 评 系统 用 户 行为 分 析 统 计 实 战 


在 本 节 大 数据 电影 点 评 系统 用 户 行为 分 析 统计 实战 中 ,我 们 需 统 计 用 户 观 看 电影 和 点 评 
电影 行为 数据 的 采集 、 过 滤 、 处 理 和 展示 。 对 于 用 户 行为 的 数据 采集 : 在 生产 环境 中 ， 企 业 
通常 使 用 Kafka 的 方式 实时 收集 前 端 服 务 器 中 发 送 的 用 户 行为 日 志 记录 信息 ; 对 于 用 户 行为 
的 数据 过 滤 : 可 以 在 前 端 服务 器 端 进行 用 户 行为 数据 的 过 滤 和 格式 化 , 也 可 以 采用 Spark SQL 
的 方式 进行 数据 过 滤 。 在 大 数据 电影 点 评 系统 用 户 行为 分 析 统 计 实 战 中 ， 基 于 GroupLens 项 
目 组 电影 推荐 系统 (MovieLens) 已 经 采集 的 用 户 电 影 观看 和 点 评 数据 文件 ， 我 们 直接 基于 
Iatings.dat、users.dat、movies.dat、occupations.dat 文件 进行 用 户 行为 实战 分 析 。 

用 户 行为 分 析 统 计 的 数据 处 理 : @ 一 个 基本 的 技巧 是 ， 先 使 用 传统 的 SQL 去 实现 一 个 
数据 处 理 的 业务 逻辑 (自己 可 以 手动 模拟 一 些 数据 ) ; @ 在 Spark2.x 的 时 候 ， 再 一 次 推荐 
使 用 DataSet 去 实现 业务 功能 ， 尤 其 是 统计 分 析 功 能 ，@) 如 果 想 成 为 专家 级 别 的 顶级 Spark 
人 才 ， 请 使 用 RDD 实现 业务 功能 ， 为 什么 ? 原因 很 简单 ， 因 为 使 用 Spark DataSet 方式 有 一 
个 底层 的 引擎 catalyst， 基 于 DataSet 的 编程 ，catalyst 的 引擎 会 对 我 们 的 代码 进行 优化 ， 有 很 
多 优化 的 言 外 之 意 是 你 看 不 到 问题 到 底 是 怎么 来 的 ， 假 设 出 错 了 ， 优 化 后 的 RDD 跑 在 Spark 
上 ， 打 印 的 错误 不 是 直接 基于 DataSet 产生 的 错误 ，DataSet 是 在 内 核 上 的 封装 ， 运 行 的 时 候 
是 基于 RDD 的 ! 因此 ， 打 印 的 错误 是 基于 RDD 的 。 DataSet 的 优化 引擎 catalyst 涉及 Spark 
底层 的 代码 封装 。 在 DataSet 的 解析 过 程 中 ， 基 于 抽象 语法 树 和 语法 规则 的 相互 配合 ， 引 擎 
catalyst 完成 了 词法 分 析 、 未 解析 的 逻辑 计划 、 解 析 以 后 的 逻辑 计划 、 优 化 后 的 逻辑 计划 、 物 
理 计 划 、 可 执行 的 物理 计划 、 物 理 计 划 执 行 、 生 成 RDD 等 一 系列 过 程 。 如 果 使 用 DataSet 
出 现 问题 ， 我 们 可 能 不 知 其 所 以 然 。 而 在 业务 代码 编码 中 ， 如 果 我 们 直接 使 用 RDD， 可 以 直 
接 基 于 RDD 来 排查 问题 。 在 本 节 大 数据 电影 点 评 系统 用 户 行为 分 析 统计 实战 中 ， 我 们 通过 
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RDD 的 方式 














i 


Parquet 是 面 


直接 统计 分 析 用 户 的 电影 行为 。 





户 行为 分 析 统 计 的 数据 格式 ， 在 生产 环境 中 ， 强 烈 建议 大 家 使 用 Parquet 的 文件 格式 。 





向 分 析 型 业务 的 列 式 存 储 格 式 ， 由 Twitter 和 Cloudera 合作 开发 ，2015 年 5 月 成 


为 Apache 顶级 项 目 。Parquet 是 列 式 存储 格式 的 一 种 文件 类 型 ， 可 以 适 配 多 种 计算 框架 ， 是 


语言 无 关 的 ， 


数据 电影 点 


而 且 不 与 任何 一 种 数据 处 理 框架 绑 定 在 一 起 ， 适 配 多 种 语言 和 组 件 。 在 本 节 大 
系统 用 户 行为 分 析 统 计 实战 中 ， 我 们 研究 试验 中 小 规模 的 用 户 电影 点 评 数据 的 




















分 析 , 专注 于 大 数据 Spark RDD 的 算 子 实现 , 这 里 仍 使 用 GroupLens 项 目 组 提供 的 文本 文件 
格式 ， 不 进行 Parquet 格式 的 转换 。 

大 数据 电影 点 评 系 统 用 户 行为 分 析 统 计 的 数据 源 格式 : 

1."ratings.dat": UserID::MovieID::Rating: :Timestamp 

2."users.dat": UserID: :Gender::RAge::OccupationID::2Zip-code 


3."movies.dat": MovieID::Title: :Genres 
4. "occupations .dat": OccupationID::OccupationName 


大 数据 电影 点 评 系统 用 户 行为 分 析 统计 实战 ， 我 们 使 用 Spark 本 地 模式 进行 开发 ， 在 
IDEA 开发 环境 的 SparkApps 工程 中 的 src/main/scala 目录 中 新 建 包 com.dt.spark.cores， 然 后 
在 com.dt.spark.cores 下 新 建 Movie Users_Analyzer RDD.scala 文件 。 

在 Movie_Users_Analyzer RDD.scala 文件 中 导入 电影 点 评 数据 。 


~Iawm 心 wm 





// 设 置 打 印 日 志 的 输出 级 别 
Logger.getLogger ("org") .setLevel (Level .ERROR) 


var masterUrl = "local[4]"” // 默 认 程序 运行 在 本 地 Local 模式 中 ， 主 要 用 于 学 习 和 测试 
var dataPath = "data/moviedata/medium/" // 数 据 存放 的 目录 


/** 
* 当 我 们 把 程序 打包 运行 在 集群 上 的 时 候 ， 一 般 都 会 传 入 集群 的 URL 信息 ， 这 里 我 们 假设 


* 如 果 传 入 参数 ， 第 一 个 参数 只 传 入 Spark 集群 的 URL， 第 二 个 参数 传 入 的 是 数据 的 地 址 信息 
0 


if(args.length > 0) { 
masterUrl = args(0) 

} else if (args.length > 1) { 
dataPath = args (1) 


/** 
* 创 建 Spark 集群 上 下 文 sc， 在 sc 中 可 以 进行 各 种 依赖 和 参数 的 设置 等 ， 大 家 可 以 通 
* 过 SparkSubmit 脚本 的 help 去 看 设置 信息 
*/ 
val sc = new SparkContext (new SparkConf () .setMaster (masterUT1) .setAppName 
("Movie Users Analyzer")) 


/** 

* 读 取 数 据 ， 用 什么 方式 读 取 数 据 呢 ? 这 里 使 用 的 是 RDD 

*/ 
val usersRDD = sc.textFile (dataPath + "users.dat") 
val moviesRDD = sc.textFile(dataPath + "movies.dat") 
val occupationsRDD = sc.textFile(dataPath + "occupations.dat") 

val ratingsRDD = sc.textFile(dataPath + "ratings.dat") 

Val ratingsRDD = sc.textFile("data/moviedata/large/" + "ratings.dat") 
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电影 点 评 系统 用 户 行为 分 析 之 一 , 统计 具体 某 部 电影 观看 的 用 户 信息 , 如 电影 ID 为 1193 


的 用 户 信息 〈 用 户 的 ID、Age、Gender、Occupation) 。 为 了 便于 阅读 ， 我 们 在 Spark Driver 
端 collect0 获 取 到 RDD 的 元 素 集合 以 后 , 使 用 collectO-take(2) 算 子 打印 输出 RDD 的 两 个 元 素 ， 
最 后 的 用 户 信息 的 输出 结果 ， 我 们 使 用 collectO.take(20) 显 示 10 个 元 素 。 





:本 
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/** 
* 电 影 点 评 系统 用 户 行为 分 析 之 一 : 分 析 具体 某 部 电影 观看 的 用 户 信 息 ， 如 电影 ID 为 
*1193 的 用 户 信息 〈 用 户 的 ID、Rge、Gender、Occupation) 
*/ 


val usersBasic: RDD[ (String, (String, String, String))] = usersRDD. 
map( .split("::")) -map { user => 
( //UserID::Gender::Age: :OccupationID 
user (3), 
(user (0), user(1), user(2)) 
) 
| 
for (elem <- usersBasic.collect() .take(2)) { 
Println("usersBasicRDD (职业 ID, (用 户 ID， 性 别 ， 年 龄 ) ) : " + elem) 
} 
val occupations: RDD[ (String, String)] = occupationsRDD.map( .split 
("::")) .map(job => (job(0), job(1))) 
for (elem <- occupations.collect().take(2)) { 
println ("occupationsRDD (职业 ID， 职 业 名 ) : " + elem) 
} 
val userInformation: RDD[ (String, ((String, String, String), String))] 
= usersBasic.join(occupations) 
userInformation.cache() 


for (elem <- userInformation.collect() .take(2)) { 
println ("userInformationRDD (职业 ID, ( (用 户 ID, 性 别 , 年 龄 ) ,职业 名 ) ) : " + elem) 


val targetMovie: RDD[(String, String)] = ratingsRDD.map(_.split 
(人 >) Fe 2:00ala("1193°)) 


for (elem <- targetMovie.collect() .take(2)) { 
println("targetMovie (用 户 ID, 电影 ID) : " + elem) 
} 


val targetUsers: RDD[ (String, ((String, String, String), String))] = 
userInformation.map(x => (x. 2. 1. 1, x. 2)) 
for (elem <- targetUsers.collect() .take (2)) { 
println("targetUsers (用 户 ID，( (用 户 ID, 性别 ,年 龄 ) ， 职 业 名 ) ) : " + elem) 
1 
println ("电影 点 评 系 统 用 户 行为 分 析 , 统计 观看 电影 ID 为 1193 的 电影 用 户 信息 : 用 户 
的 ID、 人 性别、 年龄 、 职 业 名 ") 
val userInformationForSpecificMovie: RDD[ (String, (String, ((String, 
String, String), String)))] = targetMovie.join (targetUsers) 
for (elem <- userIinformationForSpecificMovie.collect() .take(10)) { 
println("userInformationForSpecificMovie (用 户 ID，( 电 影 ID，( (用 户 ID， 
性 别 ,年 龄 )， 职 业 名 ))) : " + elem) 
| 


IDEA 中 运行 代码 ， 结 果 如 下 。 
Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults . 
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Properties 

[Stage 0:> (0 + 0) / 2] 

usersBasicRDD (职业 ID, (用 户 ID, 性 别 ,年 龄 )): (10, (1,F,1)) 
usersBasicRDD (职业 ID, (用 户 TD, 性别, 年龄 ) ) : (16, (2,M, 56)) 


occupationsRDD (职业 ID， 职 业 名 ) : (0,other or not specified) 
occupationsRDD (职业 ID， 职 业 名 ) : (1,academic/educator) 


COGN 


userInformationRDD (职业 ID，( (用 户 ID, 性别, 年 龄 ) ， 职 业 名 ) ) : (4, ((25,M,18)，, 
college/grad student)) 


10. userInformationRDD (职业 ID，( (用 户 ID, 性 别 , 年龄) ， 职 业 名 ) ) : (4, ((38,F,18)， 
college/grad student)) 


12. targetMovie (用 户 ID, 电影 ID) : (6,1193) 
13. targetMovie (用 户 ID, 电影 ID) : (10,1193) 


15. targetUsers (用 户 ID，(( 用 户 ID, 性 别 , 年 龄 )， 职 业 名 )): (25, ((25,M,18) ， 
college/grad student)) 

16. targetUsers (用 户 ID，(( 用 户 ID, 性 别 , 年 龄 )， 职 业 名 )): (38, ((38,F,18)， 
college/grad student)) 

17. 电影 点 评 系统 用 户 行为 分 析 ， 统 计 观 看 电影 ID 为 1193 的 电影 用 户 信息 : 用 户 的 ID、 人 性别 、 年 
龄 、 职 业 名 

18. userInformationForSpecificMovie (用 户 ID， (电影 ID， ( (用 户 ID, 性 别 , 年龄) ， 职 
业 名 ) )) : (3638, (1193, ((3638,M,25),artist))) 

19. userInformationForSpecificMovie (用 户 ID， (电影 ID， ( (用 户 ID, 性 别 , 年 龄 ) ， 职 
业 名 ) ) ) : (2060, (1193, ((2060,M,1),academic/educator))) 

20. userInformationForSpecificMovie (用 户 ID， (电影 ID， ( (用 户 ID, 性别 ,年 龄 ) ， 职 
业 名 ) ) ) : (91, (1193, ((91,M,35) ,executive/managerial) )) 

21. userInformationForSpecificMovie (用 户 ID， (电影 ID， ( (用 户 ID, 性别 ,年 龄 ) ， 职 
业 名 ) )) : (4150, (1193, ((4150,M,25) ,other or not specified))) 

22. userInformationForSpecificMovie (用 户 ID， (电影 ID， ( (用 户 ID, 性别 ,年 龄 ) ， 职 
业 名 ) ) ) : (3168, (1193, ((3168,F,35),customer service))) 

23. userInformationForSpecificMovie (用 户 ID， (电影 ID， ( (用 户 ID, 性别, 年 龄 ) ， 职 
业 名 ))) : (2596, (1193, ((2596,M, 50) ,executive/managerial))) 

24. userInformationForSpecificMovie (用 户 ID， (电影 ID， ( (用 户 ID, 性别 ,年 龄 ) ， 职 
VD)) (2813F (L193 ((2813> M25) writer))y 

25. userInformationForSpecificMovie (用 户 ID， (电影 ID，( (用 户 ID, 性别 ,年 龄 )， 职 
业 名 ))) : (5445, (1193, ((5445,M,25),other or not specified))) 

26. userInformationForSpecificMovie (用 户 ID， (电影 ID，( (用 户 ID, 性 别 ,年 龄 )， 职 
业 名 ))) : (3652, (1193, ((3652,M,25) ,programmer) ) ) 

27. userInformationForSpecificMovie (用 户 ID， (电影 ID， ( (用 户 ID, 性别, 年 龄 ) ， 职 
业 名 ))) : (3418, (1193, ((3418,F,18),clerical/admin))) 


12.2 通过 RDD 实现 电影 流行 度 分 析 


本 节 统 计 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 及 观看 人 数 最 多 流行 度 最 高 ) 
的 电影 。 

所 有 电影 中 平均 得 分 最 高 的 Top10 电影 实现 思路 : 如 果 想 算 总 的 评分 ， 一 般 肯定 需要 
reduceByKey 操作 或 者 a 操作 。 
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评级 文件 ratings.dat 的 格式 描述 如 下 。 

1. UserID::MovieID::Rating::Timestamp 

2. 用户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 

第 一 步 : 把 数据 变 成 Key-Value， 大 家 想 一 下 在 这 里 什么 是 Key， 什 么 是 Value? 把 
MovieID 设置 为 Key， 把 Rating 设置 为 Value。 具体 实现 过 程 : 将 ratingsRDD 中 的 每 行 数据 
按 "::" 分 隔 符 进行 分 割 ， 然 后 map 格式 化 为 (用 户 ID, 电影 卫 , 评分 ) 元 组 ; 接 下 来 对 ratings 
进行 map 转换 ， 取 ratings 元 组 的 第 2 个 元 素 " 电 影 ID" 作 为 Key， 【第 3 个 元 素 即 评分 ，1) 
元 组 值 作为 Value， 格 式 化 成 为 Key-Value 的 方式 ， 即 〈 电 影 ID， (评分 ，1) ) 。 

第 二 步 : 通过 reduceByKey 操作 或 者 aggregateByKey 实现 聚合 , 然后 呢 ? 具体 实现 过 程 : 
对 两 个 具有 相同 Key， 而 Value 不 同 的 元 组 ， 如 (电影 DD， (x. 评 分，x.1) ) ， (电影 妈 ， 
(y. 评 分 ，y.1) ) ， 我 们 使 用 reduceByKey 算 子 对 Value 值 进行 汇聚 转换 ， 计 算得 出 x 的 评 
分 +y 的 评分 ,x 的 计数 +y 的 计数 ) ， 转 换 以 后 Key 是 电影 ID，Value 是 (总 的 评分 ， 总 的 点 
评 人 数 ) ， 格 式 化 为 Key-Value， 即 (电影 DD， (总评 分， 总 点 评 人 数 ) ) 。 

第 三 步 : 排序 , 如 何 做 ? 进行 Key 和 Value 的 交换 。 上 一 步 reduceByKey 算 子 执行 完毕 ， 
接 下 来 进行 map 转换 操作 , 交换 Key-Value 值 , 并 且 计 算出 电影 平均 分 = 总 评分 /总 点 评 人 数 ， 
即将 (电影 了， 总 评分 ， 总 点 评 人 数 ) ) 转换 成 《总 评分 /总 点 评 人 数 ) ， 电 影 ID) ， 
然后 使 用 sortByKey(false) 算 子 按 电影 平均 分 降序 排列 ， 青 通过 take(10) 算 子 获取 所 有 电影 中 
平均 得 分 最 高 的 Top10， 打 印 输出 。 

所 有 电影 中 电影 粉丝 或 者 观看 人 数 最 多 的 电影 实现 思路 : 

第 一 步 : 把 数据 变 成 Key-Value: 取 ratings 元 组 的 第 2 个 元 素 电影 ID 作为 Key， 计 数 1 
次 作为 Value， 格 式 化 成 为 Key-Value， 即 〈 电 影 ID，1) 。 

第 二 步 : 通过 reduceByKey 操作 实现 聚合 ， 对 相同 Key 的 Value 值 进行 累加 。 生 成 
Key-Value， 即 〈 电 影 ID， 总 次 数 ) 。 

第 三 步 : 排序 ， 进 行 Key 和 Value 的 交换 。 上 一 步 reduceByKey 算 子 执行 完毕 ， 然 后 进 
行 map 转换 操作 ， 交 换 Key-Value 值 ,即将 (电影 也， 总 次 数 ) 转换 成 (总 次 数 ， 电 影 ID)， 
然后 使 用 sortByKey(false) 算 子 按 总 次 数 降 序 排列 。 

第 四 步 : 再 次 进行 Key 和 Value 的 交换 , 打印 输出 。 我 们 使 用 map 转换 函数 将 (总 次 数 ， 
电影 DD》 进行 交换 ， 转 换 为 (电影 DDD， 总 次 数 ) ， 再 通过 take(10) 算 子 获取 所 有 电影 中 粉丝 
或 者 观看 人 数 最 多 的 电影 Top10， 打 印 输出 。 

大 数据 电影 点 评 系统 中 ， 电 影 流行 度 分 析 须 注意 以 下 事项 。 

(1) 转换 数据 格式 的 时 候 一 般 都 会 使 用 map 操作 ， 有 时 转换 可 能 特别 复杂 ， 需 要 在 map 
方法 中 调用 第 三 方 jar 或 者 so 库 。 

(2) RDD 从 文件 中 提取 的 数据 成 员 默 认 都 是 String 类 型 ， 需 要 根据 实际 需要 进行 转换 
类 型 。 

(3) RDD 如 果 要 重复 使 用 ， 一 般 都 会 进行 Cache 操作 。 

(4) 重 磅 注意 事项 ，RDD 的 Cache 操作 之 后 不 能 直接 再 跟 其 他 的 算 子 操作 ， 和 否则 在 一 些 
版 本 中 Cache 不 生效 。 
电影 点 评 系统 用 户 行为 分 析 ， 统 计 所 有 电影 中 平均 得 分 最 高 〈 口 碑 最 好 ) 的 电影 以 及 电 
影 粉 丝 或 者 观看 人 数 最 多 的 电影 的 代码 如 下 。 
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户 


于 


println (" 所 有 电影 中 平均 得 分 最 高 〈 口 碑 最 好 ) 的 电影 :") 
val ratings= IatingsRDD.map( .split("::")).map(x => (x(0), x(1), 
x(2) ) ) .cache () // 格 式 化 出 电影 ID 和 评分 
ratings.map(x => (x. 2，(x- 3.toDouble，1)))// 格 式 化 为 Key-Value 的 方式 
roducopykeov tte yi => Mm Fy Le 
// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 
SSG > 本 (二 DIEECUOURIEEAEC 202 01009// 求 引 电 影 平均 分 
.SortByKey (false) // 降 序 排列 
.take (10) // 取 Top10 
.foreach (println) // 打 印 到 控制 台 


/** 
* 上 面 的 功能 计算 的 是 口碑 最 好 的 电影 ， 接 下 来 分 析 粉 丝 或 者 观看 人 数 最 多 的 电影 
e 
println ("所 有 电影 中 粉丝 或 者 观看 人 数 最 多 的 电影 : ") 
ratings.map(x => (x. 2, 1)) .reduceByKey( + ) .map(x => (x. 2, x. 1)). 
sortByKey (false) 
-map(x => (x. 2, x. 1)).take(10) .foreach (Println) 


在 IDEA 中 运行 代码 ， 结 果 如 下 。 


所 有 电影 中 平均 得 分 最 高 〈 口 碑 最 好 ) 的 电影 : 
[Stage 17:========================-=-==> (4+4) / 8] (5.0,33264) 
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.75,26048) 

.75,65001) 

15r5194) 

.75,4454) 

. 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 的 电影 : 
. (296,34864) 

~ (356.34457) 

。 (593,33668) 

. (480,32631) 

(319.3L1126 

a (TLO029L5A) 

. (457,28951) 
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0,64275) 
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12.3 通过 RDD 分 析 各 种 类 型 的 最 喜爱 电影 
TopN 及 性 能 优化 技巧 


通过 RDD 分 析 大 数据 电影 点 评 系统 各 种 类 型 的 最 喜爱 电影 TopN。 本 节 分 析 最 受 男 性 喜 


爱 的 电影 Top10 和 最 受 女性 喜爱 的 电影 Top10。 


评级 文件 ratings.dat 的 格式 描述 如 下 。 


> 


UserID: :MovieID::Rating::Timestamp 
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2. 用户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 
用 户 文件 users.dat 的 格式 描述 如 下 。 


1. UserID::Gender: :Age::Occupation::Zip-code 


2. 用 户 ID、 人 性别、 年龄、 职业 、 邮 编 代码 


单单 从 评分 数据 ratings 中 无 法 计算 出 最 受 男性 或 者 女性 喜爱 的 电影 Top10, 因为 该 RDD 
中 没有 性 别 Gender 信息 ， 如 果 需 要 使 用 性 别 Gender 信息 进行 性 别 Gender 的 分 类 ， 此 时 一 定 
需要 聚合 。 当 然 ， 我 们 力求 聚合 的 使 用 是 mapjoin 〈 分 布 式 计算 的 杀手 是 数据 倾斜 ，Mapper 
端的 Join 是 一 定 不 会 数据 倾斜 的 ) ， 这 里 可 否 使 用 mapjoin 呢 ? 不 可 以 ， 因 为 用 户 的 数据 非 
常 多 ! 所 以 ， 这 里 要 使 用 正常 的 Joain， 此 处 的 场景 不 会 数据 倾斜 ， 因 为 用 户 一 般 都 均匀 地 
分 布 。 

最 受 男性 喜爱 的 电影 Top10 和 最 受 女性 喜爱 的 电影 Top10 分 析 需 注意 以 下 事项 。 

(1) 因为 要 再 次 使 用 电影 数据 的 RDD， 所 以 复 用 了 前 面 Cache 的 ratings 数据 。 

(2) 在 根据 性 别 过滤 出 数据 后 ， 关 于 TopN 部 分 的 代码 直接 复 用 前 面 的 代码 就 行 了 。 

(3) 要 进行 Jain， 需 要 key-value。 

(4) 在 进行 Join 的 时 候 ， 通 过 take 等 方法 注意 Join 后 的 数据 格式 (3319,((3319, 50, 4.5),F))。 

(5) 使 用 数据 元 余 来 实现 代码 复 用 或 者 更 高 效 地 运行 ， 这 是 企业 级 项 目的 一 个 非常 重要 
的 技巧 ! 

大 数据 电影 点 评 系统 中 , 统计 最 受 男性 喜爱 的 电影 Top10 和 最 受 女性 喜爱 的 电影 Top10， 
我 们 先 分 别 过 滤 出 男性 、 女 性 相关 的 数据 ， 具 体 实现 思路 如 下 : 

(1) 对 ratings 中 的 (用户 D, 电影 ID, 评分 ) 元 组 进行 map 转换 , 格式 化 成 Key-Value， 
即 〈 用 户 卫 ，“〈 用 户 IP， 电 影 卫 , 评分 ) ) 。 

(2) 对 usersRDD 中 的 每 行 数据 按 "::" 分 隔 符 分 割 ， 然 后 进行 map 转换 ， 格 式 化 成 Key- 
Value， 即 〈 用 户 ID， 人 性 别 ) 。 

(3) 将 〈 用 户 IDP， 用户 IDP,， 电影 ID, 评分 ) ) 与 (用 户 D， 性别 ) 进行 Join 生成 新 
的 genderRatings RDD。 格 式 为 : 〈 用 户 ID，( (用 户 ID， 电 影 ID， 评 分 ) ， 性 别 ) ) ， 人 性 
别 ， 并 且 进 行 Cache 缓存 。 

(4) 对 genderRatings RDD 进行 过 滤 转 换 ， 从 元 组 (x._1 用 户 ID，(x. 2. 1 〈 用 户 ID， 
电影 DD， 评 分 ) ，x. 2. 2 性 别 ) ) 过 滤 出 x._2._2 性 别 等 于 男性 的 数据 。 然 后 进行 map 转 
换 为 x.2.1， 即 转换 成 〈 用 户 ID， 电 影 ID， 评 分 ) 格式 ， 生 成 maleFilteredRatings。 

(5) 对 genderRatings RDD 进行 过 滤 转 换 ， 从 元 组 (x._1 用 户 ID，(x. 2. 1 〈 用 户 ID， 
电影 ID， 评 分 ) ，x._ 2. 2 性 别 ) ) 过 滤 出 x._2._ 2 性 别 等 于 女性 的 数据 。 然 后 进行 map 转换 
为 x._2. 1， 即 转换 成 〈 用 户 ID， 电 影 ID， 评 分 ) 格式 ， 生 成 femaleFilteredRatings。 

从 大 数据 电影 点 评 系统 中 过 滤 男性 、 女 性 相关 的 数据 的 代码 如 下 。 
val male = "M" 
val female = "F" 
val genderRatings = ratings.map(x => (x. 1, (x. 1, x. 2, x. 3))).join( 

usersRDD.map( .split("::")).map(x => (x(0), x(1)))).cache() 
genderRatings.take (2) .foreach (println) 
val maleFilteredRatings: RDD[ (String, String, String)] = gender 
RatingsS Eulessr(x => X72 2.C0uala( MI map(le => .2 


val femaleFilteredRatings = genderRatings.filter (x => x 2.09uals 
本 KR 
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~ 
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在 IDEA 中 运行 代码 ， 打 印 出 genderRatings 的 数据 ， 取 10 个 数据 ， 格 式 为 : 〈 用 户 ID， 
〈〈 用 户 ID， 电 影 ID， 评 分 ) ， 性 别 ) ) ， 结 果 如 下 。 














EE 

. (3319, ((3319,50,4.5),F)) 
30103 no a ey 
. (3319, ((3319,180,5),F)) 

. (3319, ((3319,296,5),F)) 

. (3319, ((3319, 318,5),F)) 

. (3319, ((3319, 405, 4) ,F)) 

. (3319, ((3319,914,4.5),F)) 
. (3319, ((3319,1088, 4),F)) 
0. (3319, ((3319,1136,5).,F)) 


影 点 评 系统 用 户 行为 分 析 ， 统 计 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10， 具 体 实现 思 
路 如 下 : 

(1) 将 性 别 为 男 的 用 户 过 滤 以 后 的 数据 (用 户 也， 电影 一， 评分) 进行 map 转换 ， 格 
式 化 成 为 Key-Value 的 方式 ， 即 (电影 DD，( 评 分, 1) ) 。 

(2) 使 用 reduceByKey 算 子 对 Value 值 进行 汇聚 转换 , 对 两 个 具有 相同 Key 值 , 而 Value 
不 同 的 元 组 ， 如 (电影 ID， (x. 评 分 ，x.1) ) ，( 电 影 ID， (y. 评 分 ，y1) ) ， 计 算得 出 
(x 的 评分 +y 的 评分 ，x 的 计数 +y 的 计数 ) ， 转 换 以 后 Key 是 电影 ID，Value 是 (总 的 评分 ， 
总 的 点 评 人 数 ) ， 格 式 化 成 为 Key-Value， 即 〈 电 影 ID， “总 评分 ， 总 点 评 人 数 ) ) 。 

(3) reduceByKey 算 子 执行 完毕 ， 接 下 来 进行 map 转换 操作 ， 交 换 Key-Value 值 ， 并 且 
计算 出 电影 平均 分 = 总 评分 /总 点 评 人 数 ， 即 将 〈 电 影 卫 ， “总评 分， 总 点 评 人 数 ) ) 转换 成 
( (总 评分 /总 点 评 人 数 )， 电 影 ID) ， 然 后 使 用 sortByKey(false) 算 子 按 电影 平均 分 降序 排列 。 

(4) 再 次 进行 Key 和 Value 的 交换 ， 打 印 输出 。 使 用 map 转换 函数 将 (总 评分 /总 点 
评 人 数 ) ， 电 影 ID ) 进行 交换 ， 转 换 为 (电影 ID， (总 评分 /总 点 评 人 数 ) ) ， 再 通过 take(10) 
算 子 获取 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10， 进 行 打印 输出 。 

在 所 有 电影 中 分 析 最 受 男性 喜爱 的 电影 Top10 的 代码 如 下 。 

1. println ("所 有 电影 中 最 受 男性 喜爱 的 电影 Top10:") 

2 maleFilteredRatings.map (x=> (x. 2, (x. 3.toDouble, 1) ) ) // 格 式 化 成 为 Key-Value 

reduceDyKey((s> YAO YI 2 2)) 

// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 
-map(x => (x. 2. 1.toDouble / x. 2. 2， x. 1)) // 求 出 电影 平均 分 


4 

请 .SortByKey (false) // 降 序 排列 
6 -maple => {x 2 x 1 
7 
8 


1 
之 
3 
4 
5 
6 
7 
8 
9 
1 


.take (10) // 取 Top10 
.foreach (println) // 打 印 到 控制 台 


在 IDEA 中 运行 代码 ， 结 果 如 下 。 


所 有 电影 中 最 受 男 性 喜爱 的 电影 Top10: 
(855,5.0) 
(6075, 5.0) 
(1166, 5.0) 
(3641, 5.0) 
(1045, 5.0) 
(4136, 5.0) 
(2538, 5.0) 
(7227, 5.0) 


oOAAONP 
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10. (8484,5.0) 
T5590050) 
同样 地 ， 在 电影 点 评 系统 用 户 行为 分 析 中 ， 我 们 可 以 统计 所 有 电影 中 最 受 女 性 喜爱 的 电 
影 Top10， 有 具体 实现 思路 和 最 受 男性 喜爱 的 电影 Top10 类 似 ， 这 里 不 再 獒 述 。 
从 所 有 电影 中 分 析 最 受 女 性 喜爱 的 电影 Top10 的 代码 如 下 。 


println ("所 有 电影 中 最 受 女性 喜爱 的 电影 Top10:") 
之 femaleFilteredRatings.map (x=> (xX. 2, (Xx. 3.toDouble, 1) ) ) // 格 式 化 成 为 Key-Value 
全 "EoduceByKeyt(Ry yi => (x dT Ve 2 


// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 
-map(xX => (x. 2. 1.toDouble / x. 2. 2，x- 1)) // 求 出 电影 平均 分 
.SortByKey (false) // 降 序 排列 

-map(x => (x. 2, x._ 1)) 

.take (10) // 取 Top10 

.foreach (println) // 打 印 到 控制 台 


在 IDEA 中 运行 代码 ， 结 果 如 下 。 


所 有 电影 中 最 受 女 性 喜爱 的 电影 Top10: 
[Stage 43:======-====-=-=-==-=============== (0) 
(855,5.0) 
(32153,5.0) 
(4763, 5.0) 
(26246,5.0) 
(2332, 5.0) 
(503, 5.0) 
(4925, 5.0) 
(87675550) 
. (44657,5.0) 


co ~ aow 心 


Fowawm 必 wm 


Po: 


12.4 通过 RDD 分 析 电 影 点 评 系统 仿 QQ 和 微 信 等 用 户 群 分 
析 及 广播 背后 机 制 解密 


通过 RDD 分 析 大 数据 电影 点 评 系统 仿 QQ 和 微 信 等 用 户 群 分 析 ， 在 本 节 统计 最 受 不 同 
年 龄 段 人 员 欢 迎 的 电影 TopN。 
用 户 文件 users.dat 的 格式 描述 如 下 。 
1. UserID: :Gender::Rge::Occupation::2ip-code 
2. ”用户 ID、 人 性别、 年龄、 职业、 邮编 代 码 
电影 文件 movies.dat 的 格式 描述 如 下 。 


1. MovieID::Title: :Genres 


2. 电影 TD、 电影 名 、 电 影 类 型 
评级 文件 ratings.dat 的 格式 描述 如 下 。 


1. UserID::MovieID::Rating::Timestamp 
2. 用户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 
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大 数据 电影 点 评 系统 仿 QQ 和 微 信 等 用 户 群 分 析 实 现 思 路 :首先 计算 TopN， 但 是 这 里 
的 关注 点 有 两 个 。 


1. 不 同年 龄 阶段 如 何 界定 的 问题 


这 个 问题 其 实 是 业务 问题 。 一 般 情况 下 ， 我 们 都 是 在 原始 数据 中 直接 对 要 进行 分 组 的 年 
龄 段 提 前 进行 数据 清洗 ETL， 例 如 ， 进 行 数据 清洗 ETL 后 产生 以 下 数据 。 
Te i 





2 * 18: "18 年 龄 段 : 从 18 岁 到 24 岁 " 

3 * 25: "25 年 龄 段 : 从 25 岁 到 34 岁 " 

Cm * 35: "35 岁 年 龄 段 ， 从 35 岁 到 44 岁 " 

5: * 45: "45 岁 年 龄 段 ， 从 45 岁 到 49 岁 " 

6. * 50: "50 岁 年 龄 段 : 从 50 岁 到 55 岁 " 

这 这 * 56: "56 岁 年 龄 段 : 大 于 56 岁 " 

2. 性 能 问题 

第 一 点 : 在 实现 的 时 候 可 以 使 用 RDD 的 filter 算 子 ， 如 13 < age <18， 但 这 样 做 会 导致 
运行 时 进行 大 量 的 计算 ， 因 为 要 进行 扫描 ， 所 以 非常 耗 性 能 ， 通 过 提前 进行 数据 清洗 ETL 把 


计算 发 生 在 Spark 的 业务 逻辑 运行 前 ， 用 空间 换 时 间 ， 当 然 ， 这 些 实现 也 可 以 使 用 Hive， 因 
为 Hive 语法 支持 非常 强悍 且 内 置 了 最 多 的 函数 。 

第 二 点 : 这 里 要 使 用 mapjoin， 原 因 是 targetUsers 数据 只 有 UserID， 数 据 量 一 般 不 会 
太夫 。 

大 数据 电影 点 评 系统 仿 QQ 和 微 信 等 用 户 群 分 析 ， 先 过 滤 出 仿 QQ 用 户 及 微 信用 户 18 
年 龄 段 (从 18 岁 到 24 岁 ) 及 仿 淘宝 用 户 25 年 龄 段 (从 25 岁 到 34 岁 ) 的 用 户 数据 ， 然 后 构 
建 Broadcast 数据 结构 类 型 的 targetQQUsersBroadcast、targetTaobaoUsersBroadcast 广播 变量 。 
具体 实现 方法 如 下 。 

(1) 仿 QQ 用 户 及 微 信用 户 18 年 龄 段 用 户 targetQQUsers 的 创建 : 将 usersRDD 中 的 每 
行 数据 按 "::" 分 隔 符 分 割 ， 然 后 map 格式 化 为 (用 户 ID, 年 龄 ) 元 组 ， 最 后 使 用 filter 算 子 遍 
历 过 滤 出 元 组 的 第 二 个 元 素 等 于 18 的 数据 。 

(2) 仿 淘宝 用 户 25 年 龄 段 用 户 targetTaobaoUsers 的 创建 : 将 usersRDD 中 的 每 行 数据 按 
"分 隔 符 分 割 ， 然后 map 格式 化 为 (用 户 ID, 年 龄 ) 元 组 ， 然 后 使 用 filter 算 子 遍历 过 滤 出 
元 组 的 第 二 个 元 素 等 于 25 的 数据 。 

(3) 构建 仿 QQ 用 户 及 微 信 用 户 数据 集合 targetQQUsersSet。 将 targetQQUsers (用 户 ID， 
年 龄 ) 元 组 使 用 map 转换 函数 获取 第 一 个 元 素 用 户 ID， 然 后 使 用 collect0 算 子 收集 所 有 的 仿 
QQ 用 户 及 微 信 用 户 的 用 户 ID。 代 码 “HashSet0 ++ targetQQUsers.map( . 1).collect0”， 
这 里 使 用 “++” 运 算 符 是 因为 ，collect0 算 子 返回 的 数据 类 型 是 数组 类 型 Array[T]， 使 用 
HashSetO 进 行 “++” 运 算 ， 结 果 将 是 HashSet[String] 类 型 ， 在 之 后 的 广播 变量 计算 中 将 使 用 。 
而 如 果 使 用 “+” 运 算 符 ， 结 果 将 是 HashSet[Array[String]] 类 型 ， 之 后 的 广播 变量 计算 编译 器 
会 提示 类 型 不 匹配 。 

(4) 构建 仿 淘 宝 用 户 数据 集合 targetTaobaoUsersSet。 将 targetTaobaoUsers (用 户 ID， 年 
龄 ) 元 组 使 用 map 转换 函数 获取 第 一 个 元 素 用 户 ID， 然 后 使 用 collect0 算 子 收集 所 有 的 仿 淘 
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宝 用 户 的 用 户 ID。 

(5) 构 建 广播 变量 数据 结构 targetQQUsersBroadcast\targetTaobaoUsersBroadcast。 在 Spark 
中 如 何 实现 mapjoin 呢 ? 显然 是 要 借助 于 Broadcast， 把 数据 广播 到 Executor 级 别 ， 让 该 
Executor 上 的 所 有 任务 共享 该 唯一 的 数据 , 而 不 是 每 次 运行 Task 的 时 候 都 要 发 送 一 份 数据 的 
复制 ， 这 显著 地 降低 了 网 络 数据 的 传输 和 JVM 内 存 的 消耗 。 这 里 我 们 使 用 sc-broadcast 分 别 
创建 了 广播 变量 targetQQUsersBroadcast、targetTaobaoUsersBroadcast。 


> val targetQQUsers = usersRDD.map( .split("::")) .map(x => (x(0), 
x(2))) .filter( . 2.equals("18")) 

a val targetTaobaoUsers = usersRDD.map( .split("::")) .map(x => (x(0), 
x(2))) .filter( . 2.equals("25")) 

/ee 


* 在 Spark 中 如 何 实现 mapjoin 呢 ? 显然 要 借助 于 Broadcast, 把 数据 广播 到 Executor 
* 级 别 ， 让 该 Executor 上 的 所 有 任务 共享 该 唯一 的 数据 ， 而 不 是 每 次 运行 Task 的 时 候 
* 都 要 发 送 一 份 数据 的 复制 ， 这 显著 地 降低 了 网 络 数据 的 传输 和 JVM 内 存 的 消耗 


4. */ 

5S: val targetQQUsersSet = HashSet () ++ targetQQUsers.map( . 1) .collect() 

6- val targetTaobaoUsersSet = HashSet () ++ targetTaobaoUsers.map(_._1). 
collect() 

了 全 

8. Val targetQQUsersBroadcast = sc.broadcast (targetQQUsersSet) 


9 


所 有 电影 中 仿 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 ， 有 具体 实现 如 下 。 

(1) 将 moviesRDD 中 的 每 行 数据 按 "::" 分 隔 符 分 割 ， 然后 map 格式 化 为 (电影 DD， 电 影 
元 组 ， 使 用 collect 算 子 收集 所 有 数据 ， 通 过 toMap 转换 成 map 数据 结构 。 

(2) 将 ratingsRDD 中 的 每 行 数 据 按 "::" 分 隔 符 分 割 ， 然 后 map 格式 化 为 〈 用 户 ID， 电 影 
ID) 元 组 ， 最 后 使 用 filter 算 子 遍历 过 滤 。 过 滤 条 件 为 : 元 组 的 第 一 个 元 素 用 户 ID 包含 在 广 
播 变量 targetQQUsersBroadcast 的 集合 HashSet〈 用 户 ID) 中 ， 即 从 ratingsRDD 中 过 滤 出 18 
年 龄 段 (从 18 岁 到 24 岁 ) 的 用 户 的 评分 数据 ， 数 据 格式 为 〈 用 户 ID， 电 影 ID) 。 

(3) 然后 进行 map 转换 ， 把 数据 变 成 Key-Value， 取 ratingsRDD 元 组 的 第 2 个 元 素 电 影 
ID 作为 Key， 计 数 1 次 作为 Value， 格 式 化 为 Key-Value， 即 〈 电 影 ID，1) 。 

(4) 通 过 reduceByKey 操作 实现 聚合 : 对 相同 Key 的 Value 值 进行 累加 。 生 成 Key-Value， 
即 〈 电 影 ID， 总 次 数 ) 。 

(5) 然后 进行 Key 和 Value 的 交换 。 上 一 步 reduceByKey 算 子 执行 完毕 ， 然 后 进行 map 
转换 操作 ， 交 换 Key-Value 值 ， 即 将 (电影 DD， 总 次 数 ) 转换 成 〈 总 次 数 ， 电 影 ID) 。 

(6) 接 下 来 排序 ， 我 们 使 用 sortByKey(false) 算 子 按 总 次 数 降序 排列 。 

(7) 排序 完成 ， 再 次 进行 Key 和 Value 的 交换 。 我 们 使 用 map 转换 函数 将 (总 次 数 ， 电 
影 ID) 进行 交换 ， 转 换 为 (电影 DDD， 总 次 数 ) ， 再 通过 take(10) 算 子 获取 Top10 的 记录 。 数 
据 格 式 为 〈 电 影 ID， 总 次 数 ) 。 

(8) 为 了 使 输出 显示 更 加 直观 ， 我 们 使 用 movieID2Name.getOrElse 获取 电影 ID 对 应 的 
电影 名 ， 然 后 打印 输出 ， 格 式 为 (电影 名 ， 总 次 数 ) ， 即 打印 输出 所 有 电影 中 仿 QQ 或 者 微 
信用 户 最 喜爱 电影 的 Top10。 

仿 QQ 或 者 微 信 核心 目标 用 户 最 喜爱 电影 TopN 分 析 代 码 如 下 。 


val targetTaobaoUsersBroadcast = sc.broadcast (targetTaobaoUsersSet) 


_ 


名 
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pa 


Val movieID2Name = moviesRDD.map( .split("::")) .map(x => (x(0), 
x(1))) .collect.toMap 
println ("所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 :") 
ratingsRDD.map( .split("::")) .map(x => (x(0), x(1))).filter(x => 
targetQQUsersBroadcast .value.contains (x | 
) .map(x => (x. 2, 1)).reduceByKey(_ + ).map(x => (x. 2, x. 1)). 
sortByKey (false) .map (x => (x. 2, x. 1)).take(10). 
map(x => (movieID2Name.getOrElse(x. 1, null), x. 2)).foreach (Println) 


IDEA 中 运行 代码 ， 结 果 如 下 : 


在 

1. ”所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 : 
2. (Silence of the Lambs, The (1991),524) 
总 
4 
本 
6 


FANON 


(Pulp Fiction (1994),513) 
(Forrest Gump (1994),508) 
(Jurassic Park (1993),465) 
. (Shawshank Redemption, The (1994),437) 
7. (Star Wars: Episode IV - A New Hope (1977),427) 
8. (Braveheart (1995),418) 
9. (Terminator 2: Judgment Day (1991) ,398) 
10% (Toy Story (1995)7396) 
11. (Independence Day (ID4) (1996),393) 


所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 ， 具 体 实现 思路 和 仿 QQ 或 者 微 信 
核心 目标 用 户 最 喜爱 电影 TopN 分 析 类 似 ， 这 里 不 再 袭 述 ， 实 现代 码 如 下 。 


Println(" 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 :") 

ratingsRDD.map( .split("::")) .map(x => (x(0), x(1))).filter(x => 
targetTaobaoUsersBroadcast .value.contains (x. 1) 

).map(x => (x. 2，1)) .reduceByKey( + ).map(x => (x. 2, x. 1)). 
sortByKey (false) .map (x => (x. 2, x. 1)) .take(10) . 
map(x => (movieID2Name.getOrElse(x. 1, null), x. 2) ) .foreach (Println) 


在 IDEA 中 运行 代码 ， 结 果 如 下 。 


所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 : 
(Pulp Fiction (1994),959) 
(Silence of the Lambs, The (1991),949) 
(Forrest Gump (1994),935) 
(Jurassic Park (1993),894) 
(Shawshank Redemption, The (1994),859) 
(Star Wars: Episode IV - A New Hope (1977),853) 
(Toy Story (1995),801) 
(Independence Day (ID4) (1996),801) 

. (Braveheart (1995),798) 

. (Terminator 2: Judgment Day (1991),784) 


anODNDP 


Fo~awm 必 wm 


Po: 


12.5 通过 RDD 分 析 电 影 点 评 系统 实现 Java 和 Scala 版 本 的 
二 次 排序 系统 


本 节 实 现 RDD 分 析 大 数据 电影 点 评 系统 的 二 次 排序 功能 ， 分 别 使 用 Java 和 Scala 语言 
来 实现 。 在 实现 大 数据 电影 点 评 系统 的 二 次 排序 前 ， 我 们 先 实现 一 个 Java 版 本 二 次 排序 的 例 
子 ， 来 曾 述 二 次 排序 的 实现 。 
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数据 准备 : 在 “data/moviedata/medium/” 目 录 下 新 建文 本 文件 dataforsecondarysorting .txt， 
在 文本 文件 中 输入 如 下 测试 数据 。 


AODP 
POD 
aapr 


文本 文件 dataforsecondarysorting.txt 中 有 两 列 数字 , 二 次 排序 的 含义 是 先 按照 第 一 列 数字 
进行 排序 ， 如 果 第 一 列 数字 中 有 相同 的 数字 ， 然 后 再 按照 第 二 列 的 数字 进行 第 二 次 排序 。 如 
上 述 文本 文件 ， 进 行 二 次 排序 的 结果 如 下 。 


心 wN 
PND 
pp 


编写 MovieUsersAnalyzerTestjava 及 SecondarySortingKeyjava 实现 对 dataforsecondarysorting txt 
的 文本 文件 内 容 进行 二 次 排序 。SecondarySortingKey.java 是 自 定义 Key 值 类 。 
MovieUsersAnalyzerTest.java 中 实现 了 二 次 排序 功能 。 


12.5.1 二 次 排序 自 定义 Key 值 类 实现 (Java) 


Spark 中 可 以 使 用 sortByKey 算 子 对 数据 的 Key 值 进行 排序 ， 本 节 中 ， 我 们 须 进 行 二 次 
排序 ， 二 次 排序 的 关键 是 自 定义 Key 值 ， 在 自 定义 Key 中 实现 排序 的 功能 。 这 里 将 每 一 行 数 
据 的 第 一 个 数据 、 第 二 个 数据 组 合成 一 个 Key 值 ， 然 后 在 自 定 义 Key 中 实现 二 次 排序 。 同 样 
的 思路 ， 如 果 业 务 需求 需 实现 三 次 排序 、 四 次 排序 ， 甚 至 更 多 维度 的 排序 ， 重 点 也 是 自 定义 
Key 值 ， 将 多 维 数据 组 合成 为 自 定义 Key， 从 而 实现 多 维度 的 排序 功能 。 

自 定义 Key 值 的 Java 类 为 SecondarySortingKeyjava， 在 类 中 定义 需要 二 次 排序 的 组 合 
key 值 : first、second， 然 后 重 写 $greater、$greater$eq、$less、$less$eq、compare、compareTo 
方法 ， 以 及 hashCode、equals 方法 。 

compare 的 方法 是 比较 自身 对 象 this 与 要 比较 对 象 that 的 比较 结果 。 compare 方法 用 来 确 
定 如 何 将 要 排序 的 对 象 进行 排序 。 假 如 返回 的 结果 为 x， 那 么 

口 x<0 表示 this <that 

口 x 一 0 表示 this 一 that 

口 x>0 表示 this > that 

在 SecondarySortingKey.java 的 重 载 方法 compareTo 中 , 分 别 将 两 个 SecondarySortingKey 
对 象 进行 比较 ， 例 如 ，dataforsecondarysorting.txt 的 第 一 行 (3 6) 组 合成 Key 的 this 对 象 ， 
它 将 与 第 二 行 的 (2 10) 组 合成 Key 的 that 对 象 进行 比较 ， 首 先 比 较 this 和 that 的 第 一 列 
数字 ，this 对 象 的 第 一 列 数字 是 3， 比 that 对 象 的 第 一 列 数字 2 大 ， 因 此 相 减 值 大 于 0， 表 示 
this (3 6) 对 象 比 that 对 象 (2 10) 大。 如 果 this 对 象 和 that 对 象 的 第 一 列 数字 相等 ， 那 
么 再 比较 第 二 列 数字 的 大 小 ， 进 行 二 次 排序 。 例 如 ，Key (2 10) 与 Key (2 4) 第 一 列 数 
字 相 等 的 情况 下 ， 再 比较 第 二 列 数字 ，10 比 4 要 大 ， 因 此 Key (2 10)、Key (2 4) 二 次 
排序 以 后 ，Key (2 10) 比 Key (2 4) 大 。 

方法 $greater、$greater$eq、$less、$less$eq、compare 是 同样 的 思路 。 以 下 是 Secondary 
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SortingKey.java 的 重 载 方法 compare 的 代码 。 


1. override 


Rs public int compareTo (SecondarySortingKey that) { 
3 if(this.first - that.getFirst() != 0){ 

六 return this.first - that.getFirst(); 

Bs } else { 

6 return this.second - that.getSecond(); 

也 } 

8 } 


SecondarySortingKey.java 的 完整 代码 如 下 。 


1. package com.dt.spark.cores; 

2. import scala.Serializable; 

3. import scala.math.Ordered; 

4. public class SecondarySortingKey implements Ordered<SecondarySortingKey>, 
Serializablef{ 

5 private int first; 

6. private int second; 

Ye public int getFirst() { 

8. return first; 

9 





Os public void setFirst(int first) { 

1 this.first = first; 

2 

ds public int getSecond() { 

14. return second; 

四 

16 . public void setSecond (int second) { 

了 this.second = second; 

18. 

9s public SecondarySortingKey (int first, int second){ 
2D this. first = firsts; 

> this.second = second; 

安富 

3 @Override 

人 2 public String toString() { 

4 return super.tosString(); 

2 

介子 @Override 

2 public boolean equals (Object o) { 

29. if (this == Oo) return true; 

30 . if (o == null || getClass() != o.getClass()) return false; 
3 SecondarySortingKey that = (SecondarySortingKey) o; 
22 if (first != that.first) return false; 

3 return second == that.second; 

34. i 

5 @Override 

x1 public int hashCode() { 

37. int result = first; 

38. result = 31 * result + second; 

Se return result; 

40. | 

41. @Override 

42. public int compare(SecondarySortingKey that) { 
43. if(this.first - that.getFirst() != 0){ 

44. return this.first - that.getFirst(); 
45. } else { 
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46. return this.second - that.getSecond(); 

47. 中 

48. | 

49. Q@Override 

So public boolean $less(SecondarySortingKey that) { 

Se 卫生 (二 his First < that gotrFirst()h) 

2 return true; 

S53 } else if (this.first == that.getFirst() &&this.second < that. 
getSecond () ) { 

54. return true; 

55: } 

56 . return false; 

67 

58 . @Override 

5 public boolean $less$eq(SecondarySortingKey other) { 

60 . if(SecondarySortingKey.this.S$less (other)){ 

Bs return true; 

G2 } else if (this.first == other.getFirst() && this.second == other. 
getSecond () ) { 

63- return true; 

64. } 

65. return false; 

66. } 

G7 @Override 

68. public boolean S$greater (SecondarySortingKey that) { 

69. if(this.first > that.getFirst()){ 

DE return true; 

这 下 }else if(this.first == that.getFirst() && this.second > that. 
getsecond()) { 

2 return true; 

了 3R 下 

74. return false; 

Ve } 

76. @Override 

ps public boolean S$greater$eq(SecondarySortingKey that) { 

了 8< if (SecondarySortingKey.this.S$Sgreater (that) ) { 

9 return true; 

80 . } else if (this.first == that.getFirst() && this.second == that. 
getSecond () ) { 

B13 return true; 

Bs } 

D3 return false; 

84. } 

95 GOverride 

86 . public int compareTo (SecondarySortingKey that) { 

a if(this.first - that.getFirst() != 0){ 

88. return this.first - that.getFirst(); 

89. } else { 

90. return this.second - that.getSecond(); 

9 

Fn } 

eek 


12.5.2 ”电影 点 评 系统 二 次 排序 功能 实现 (Java) 


我 们 已 经 实现 了 SecondarySortingKey.java 自 定义 Key 值 类 ， 接 下 来 先 编写 一 个 Java 测 
试 类 MovieUsersAnalyzerTestjava， 验 证 自 定义 Key 值 二 次 排序 的 功能 。 验 证 通过 以 后 ， 只 
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需 将 读 入 的 dataforsecondarysorting.txt 文本 文件 修改 为 读 入 电影 点 评 系统 文件 , 重新 组 合成 电 
影 点 评 系统 的 Key， 就 可 将 二 次 排序 代码 移植 到 电影 点 评 系统 代码 中 。 

下 面 先 实现 Java 测试 类 MovieUsersAnalyzerTestjava， 有 具体 实现 思路 如 下 。 

(1) 读 入 dataforsecondarysorting txt 每 行 的 数据 记录 。 

(2) 对 读 入 的 数据 进行 mapToPair 转换 ， 格 式 为 Key-Value。 先 将 每 行 数据 按 空格 进行 





单词 切 分 ， 返 回 一 个 Key-Value 键 值 对 。Key 为 SecondarySortKey 自 定义 类 (每 行 数据 切 分 


后 的 第 0 个、 第 1 个 数据 ) ，value 为 每 行 的 原 数据 。 格式 化 Key-Value 的 结果 ,如 ( (2 4) ， 
i 

(3) 对 keyvalues 使 用 sortByKey 算 子 按 SecondarySortKey 类 型 的 Key 值 进行 排序 。 通 
过 key 值 SecondarySortKey 的 compareTo 方法 排序 ， 实 现 了 二 次 排序 。 

(4) 上 一 步 使 用 sortByKey 算 子 进行 Key 值 二 次 排序 完毕 ， 这 里 Key 值 不 再 需要 了 ， 我 
们 使 用 map 函数 进行 转换 ， 直 接 返 回 Key-Value 键 值 对 的 Value。 例如 ，( (24) ，“24”) 
map 转换 以 后 返回 结果 为 “24”。 

(5) 打印 输出 二 次 排序 后 的 结果 。 

MovieUsersAnalyzerTestjava 的 完整 代码 如 下 : 


oop 


DPO.: 





package com.dt.spark.cores; 

import org.apache.spark.SparkConf; 

import org.apache.spark.api.java.JavaPairRDD; 

import org.apache.spark.api.java.JavaRDD; 

import org.apache.spark.api.java.JavaSparkContext; 
import org.apache.spark.api.java.function.Function; 
import org.apache.spark.api.java.function.PairFunction; 
import scala.Tuple2; 

import java.util.List; 


. public class MovieUsersAnalyzerTest { 


public static void main(String[] args) { 
/** 
* 创 建 Spark 集群 上 下 文 sc， 在 sc 中 可 以 进行 各 种 依赖 和 参数 的 设置 等 ， 大 家 可 以 
* 通 过 SparkSubmit 脚本 的 help 去 看 设置 信息 
*/ 
JavaSparkContext sc = new JavaSparkContext (new SparkConf () .setMaster 
("local{[4]") .setAppName ("Movie Users Analyzer")); 
JavaRDD<String> lines = sc.textFile("data/moviedata/medium/" + " 
dataforsecondarysorting.txt"); 
JavaPairRDD<SecondarySortingKey, String> keyvalues = lines.mapToPair 
(new PairFunction<String, SecondarySortingKey, String>() { 
private static final long serialVersionUID = 1L; 
@Override 
public Tuple2<SecondarySortingKey, String> calll(String line) 
throws Exception { 
String[] splited = line.split(" "); 
SecondarySortingKey key = new SecondarySortingKey (Integer. 
valueOf (splited[0]), 
Integer.valueOf (splited[1])); // 组 合成 Key 值 
return new Tuple2<SecondarySortingKey, String> (key, line); 
} 
1D); 


. // 按 Key 值 进行 二 次 排序 
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2215 JavaPairRDD<SecondarySortingKey, String> sorted = keyvalues. 
sortByKey (false); 

28= JavaRDD<String> result = sorted.map (new Function<Tuple2<Secondary 
SortingKey, String>, String>() { 

直属 private static final long serialVersionUID = 1L; 

30. 

3 @Override 

92 public String call (Tuple2<SecondarySortingKey, String> tuple) 

throws Exception { 

335 return tuple. 2;// 取 第 二 个 值 Value 值 

34. } 

ES In)g 

人 36 List<String> collected = result.take (10); 

S75 for (String item : collected) {// 打 印 输出 二 次 排序 后 的 结果 

改革 System.out .Println(item) 7 

人 1 

40. } 

41. } 


在 IDEA 中 运行 代码 ， 结 果 如 下 。 


1. Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults. 
properties 


2. 17/03/01 11:07:16 INFO SparkContext: Running Spark version 2.1.0 

< 

4. 17/03/01 11:07:24 INFO DAGScheduler: Job 2 finished: take at MovieUsers 
AnalyzerTest.java:48, took 0.088430 s 

5 “36 

6 2-410 

Ny 

| 


Java 测试 类 MovieUsersAnalyzerTestjava 已 经 测试 验证 通过 ， 下 面 将 读 入 的 
dataforsecondarysorting.txt 文本 文件 修改 为 读 入 电影 点 评 系统 文件 , 重新 组 合成 电影 点 评 系统 
的 Key， 从 而 实现 电影 点 评 系 统 的 二 次 排序 功能 。 在 MovieUsersAnalyzer.java 中 读 入 电影 评 
分 数据 ratings.dat， 对 电影 评分 数据 从 时 间 、 评 分 数 二 个 维度 进行 排序 ， 先 按时 间 排 序 ， 然 后 
按 评分 进行 二 次 排序 。 

评级 文件 ratings.dat 的 格式 描述 如 下 。 


1. UserID::MovieID::Rating::Timestamp 
2. 用户 ID、 电 影 ID、 评 分 数据 、 时 间 截 





MovieUsersAnalyzer.java 在 MovieUsersAnalyzerTest.java 的 基础 上 修改 : @ 修改 读 入 文 
件 ratings.dat; @) 读 入 的 每 行 数据 按 "::" 分 隔 符 进行 分 割 : @ 将 时 间 戳 、 评 分 数据 组 合成 Key 
值 放 入 到 SecondarySortingKey 类 。 

MovieUsersAnalyzer.java 修改 的 地 方 如 下 。 








本 //"ratings.dat": UserID: :MovieID::Rating::Timestamp 

2 JavaRDD<String> lines = sc.textFile("data/moviedata/medium/" + " 
ratings.dat"); 

< 司 JavaPairRDD<SecondarySortingKey, String> keyvalues = lines. mapToPair 


(new PairFunction<String, SecondarySortingKey, String>() { 
private static final long serialVersionUID = 1L; 


@Override 
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public Tuple2<SecondarySortingKey, String> call (string line) 
throws Exception { 

8 String[] splited = line.split("::"); 

95 SecondarySortingKey key = new SecondarySortingKey (Integer- 

valueOf (splited[3]), 

OE Integer.valueOf (splited[2])); 

3 return new Tuple2<SecondarySortingKey, String> (key, line); 

人 } 

ER ]) 7 


在 IDEA 中 运行 代码 ， 显 示 结 果 “ 用 户 ID、 电 影 ID、 评 分 数据 、 时 间 惟 ”， 先 按时 间 
瀹 排序 ， 然 后 按 评 分 排序 ， 打 印 输出 结果 如 下 。 


1. Using Spark's default 1og4j profile: org/apache/spark/10g4j- defaults.properties 
2. 17/03/01 13:28:30 INFO SparkContext: Running Spark version 2.1.0 


4. 17/03/01 13:28:38 INFO ShuffleBlockFetcherIterator: Started 0 remote 
fetches in 5 ms 





Sa es ::4::1046454590 
= A958 ::4::1046454548 
| 4958:: ::1046454548 
Be A9583 ::1046454443 
9 49582e ::1046454338 
10. A95825 ::1046454320 
1 S58 ::1046454282 
二 人 人 BBS ::1046454260 
Ee ::1046444711 
LA SAB ::1046437932 


12.5.3 ”二 次 排序 自 定义 Key 值 类 实现 (Scala) 


之 前 我 们 已 使 用 Java 实现 了 RDD 分 析 大 数据 电影 点 评 系统 的 二 次 排序 功能 ， 本 节 使 用 
Scala 语言 来 实现 。 在 Movie_ Users_Analyzer RDD.scala 代码 文件 中 对 电影 评分 数据 进行 二 次 
排序 ， 以 时 间 戳 Timestamp 和 评分 Rating 两 个 维度 降序 排列 。 

评级 文件 ratings.dat 的 格式 描述 如 下 。 


1. UserID::MovieID::Rating: :Timestamp 
2. 用户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 


对 电影 评分 数据 进行 二 次 排序 完成 的 功能 是 最 近 时 间 中 最 新 发 生 的 点 评 信息 。Scala 相对 
于 Java 代码 实现 更 简洁 优雅 。 具 体 实现 方法 如 下 。 

(1) 自 定义 SecondarySortKey 类 ， 在 SecondarySortKey 类 构造 函数 中 传 入 first、second 
两 个 参数 。SecondarySortKey 类 继承 自 Ordered 排序 接口 及 序列 化 器 。 

(2) 在 SecondarySortKey 类 中 定义 了 compare 方法 ， 类 似 Java 的 二 次 排序 方法 ，this、 
other 的 比较 和 之 前 Java 类 中 this、that 的 比较 类 似 ， 这 里 不 再 袭 述 。 和 Java 中 代码 实现 不 同 
的 是 ，Scala 代码 中 引入 了 Math.ceil 及 Math. floor 方法 。 

口 Math.ceil 方法 是 向 上 取 整 计算 ， 它 返回 的 是 大 于 或 等 于 函数 参数 ， 并 且 与 之 最 接近 

的 整数 。 
口 Math .floor 方法 是 求 一 个 最 接近 它 的 整数 ， 它 的 值 小 于 或 等 于 这 个 浮 点 数 。 
为 什么 这 里 需要 调用 Math.ceil、Math floor 方法 呢 ? 原因 是 this 对 象 和 other 对 象 比较 的 
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结果 是 一 个 Int 整数 。 如 果 计 算 返 回 值 是 正 小 数 ， 就 需要 实现 大 于 0 的 小 数 ， 向 上 取 整 返回 
1， 表 示 第 一 个 对 象 大 于 第 二 个 对 象 ; 如 果 计 算 返 回 值 是 负 小 数 ， 就 需要 实现 小 于 0 的 小 数 向 
下 取 整 返回 -1， 表 示 第 一 个 对 象 小 于 第 二 个 对 象 。 实 现 的 技巧 就 是 通过 Math.ceil、Math.floor 
方法 来 实现 的 。 

compare 的 方法 是 比较 自身 对 象 this 与 要 比较 对 象 other 的 比较 结果 。compare 方法 用 来 
确定 如 何 将 要 排序 的 对 象 进 行 排序 。 假 如 计算 this.second - other.second 的 值 ， 那 么 : 
口 this.second - other.second =0.5 返回 值 取 1， 即 取 值 Math.ceil(0.5) 
口 this.second - other.second = -0.5 返回 值 取 -1， 即 取 值 Math. floor (-0.5) 
SecondarySortKey 的 代码 如 下 。 


1. class SecondarySortKey (val first:Double,val second:Double) extends 
Ordered [SecondarySortKey] with Serializable { 

2 def compare (other:SecondarySortKey):Int = { 
3 if (this.first - other.first !=0) { 

A (this.first - other.first) .toInt 

5 全 } else { 
6. 
7 
8 








if (this.second - other.second > 0){ 
Math.ceil (this.second - other.second) .toInt 
} else if (this.second - other.second < 0){ 
A Math.floor (this.second - other.second) .toInt 


0 } else { 

了 和 (this .second - other.second) .toInt 
了 全 } 

133 


12.5.4 ”电影 点 评 系统 二 次 排序 功能 实现 (Scala) 


接 下 来 使 用 Scala 实现 电影 点 评 系统 的 二 次 排序 功能 ， 实 现 对 电影 评分 数据 以 时 间 戳 
Timestamp 和 评分 Rating 两 个 维度 进行 二 次 降序 排列 。 
评级 文件 ratings.dat 的 格式 描述 如 下 。 


1. UserID::MovieID::Rating: :Timestamp 
2. 用户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 


具体 实现 方法 如 下 。 

(1) 读 入 电影 点 评 系统 文件 ， 之 前 已 读 入 ratings.dat 文件 生成 ratingsRDD。 使 用 map 函 
数 对 ratingsRDD 进行 转换 ， 将 每 行 数据 按 "::" 分 割 ， 取 到 第 3 个 元 素 时 间 戳 ， 第 2 个 元 素 评 
分 数据 ， 将 时 间 戳 、 评 分 数据 组 合成 为 Key 值 , 每 行 数据 为 Value 值 ， 形 成 格式 化 Key-Value 
键 值 对 。 格 式 为 : 〈 《时间 戳 、 评 分 数据 ) ，“ 用 户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 ”) 

(2) 使 用 sortByKey 算 子 按 〈 时 间 戳 、 评 分 数据 ) Key 值 排序 。 

(3) sortByKey 排序 完毕 ， 对 于 排序 后 的 每 行 的 元 组 数据 〈《〈 时 间 戳 、 评 分 数据 ) ，“ 
户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 ”) ， 取 出 元 组 的 第 2 个 元 素 ， 即 “用 户 ID、 电 影 JD、 
评分 数据 、 时 间 戳 ”。 

(4) 使 用 take 算 子 取出 前 10 个 数据 ， 打 印 输出 结果 。 

Movie_Users_Analyzer RDD.scala 中 电影 点 评 系 统 二 次 排序 功能 实现 代码 如 下 。 

1 println ("对 电影 评分 数据 以 Timestamp 和 Rating 两 个 维度 进行 二 次 降序 排列 : ") 
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2 val pairWithSortkey = ratingsRDD.map (line =>{ 

发 二 val splited = line.split("::") 

4. (new SecondarySortKey ( splited (3) .toDouble, splited (2) .toDouble) , line ) }) 

De 

6 val sorted = pairWithSortkey .sortByKey (false) 

了 < 

Be val sortedResult = sorted.map(sortedline => sortedline. 2) 

后 sortedResult.take (10) .foreach (println) 

在 IDEA 中 运行 代码 ， 先 按 第 4 列 时 间 戳 排序 ， 再 按 第 3 列 评分 数据 排序 ， 二 次 排序 的 
结果 如 下 。 

1. 对 电影 评分 数据 以 Timestampb 和 Rating 两 个 维度 进行 二 次 降序 排列 : 

2 62510 34149< 0 

3. 62510::4784 :1231131303 

4. 63100:: 1231131142 

SE Go: 23L131I3n 

0300 ISL1332 

W600 SE LSTL2T 

Eh UD. 1231131118 

9. 63100::4816 2 

L063100 :2361.: 2223131107 

MGL SAT 0 





12.6 通过 Spark SQL 中 的 SQL 语句 实现 电影 点 评 
系统 用 户 行为 分 析 


之 前 我 们 已 经 详细 阐述 了 通过 RDD 实现 大 数据 电影 点 评 系统 中 电影 的 用 户 行为 信息 分 
析 ， 本 节 通 过 Spark SQL 中 的 SQL 语句 实现 大 数据 电影 点 评 系统 用 户 行为 分 析 ， 通 过 
DataFrame 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 人 ? 具体 实现 思路 : 
从 点 评 数据 中 获得 观看 者 的 信息 ID; @ 把 评分 ratings 表 和 用 户 users 表 进 行 Join 操作 ， 获 
得 用 户 的 性 别 信息 ; @ 使 用 内 置 函数 (内 部 包含 超过 200 个 内 置 函数 ) 进行 信息 统计 和 分 析 。 

这 里 通过 DataFrame 来 实现 : 首先 通过 DataFrame 的 方式 表现 评分 ratings 和 用 户 users 
的 数据 ， 然 后 进行 Join 和 统计 操作 。 

用 户 文件 users.dat 的 格式 描述 如 下 。 


1. UserID::Gender::Age::Occupation::Zip-code 


2. 用户 ID、 人 性别、 年龄、 职业、 邮编 代码 
评级 文件 ratings.dat 的 格式 描述 如 下 。 


1. UserID::MovieID::Rating::Timestamp 
2. ”用 户 ID、 电 影 ID、 评 分 数据 、 时 间 截 


电影 文件 movies.dat 的 格式 描述 如 下 。 


1. MovieID::Title: :Genres 
2. 电影 ID、 电影 名 、 电 影 类 型 


通过 Spark SQL 中 的 SQL 语句 实现 大 数据 电影 点 评 系统 用 户 行为 分 析 ， 在 Movie 
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Users_Analyzer DateFrame.scala 代码 文件 中 ， 首 先 读 取 电 影 点 评 系 统 的 用 户 数据 ， 用 什么 方 
式 读 取 数 据 呢 ? 这 里 使 用 RDD 方式 读 入 数据 。 

val usersRDD = sc.textFile(dataPath + "users.dat") 

val moviesRDD = sc.textFile(dataPath + "movies.dat") 

val occupationsRDD = sc.textFile(dataPath + "occupations.dat") 

val ratingsRDD = sc.textFile(dataPath + "ratings.dat") 

接 下 来 使 用 Spark SQL 中 的 SQL 方式 实现 电影 点 评 系统 用 户 行为 分 析 ， 有 具体 实现 步骤 
如 下 。 

(1) 使 用 StuctType 方式 把 用 户 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 
信息 , 即 StructType(StructField(UserID, StringType, true), StructField(Gender StringType, true)， 
StructField(Age, StringType, true), StructField(Occupation, StringType, true), StructField(Zip-code, 
StringType, true)) 的 格式 。 

(2) 从 用 户 usersRDD 的 每 行 数据 按 "::" 分 隔 符 分 割 , 把 每 条 数据 变 成 以 Row 为 单位 的 数 
据 ，Row 每 行 中 的 数据 格式 为 〈 用 户 DD、 性 别 、 年 龄 、 职 业 、 邮 编 代 码 〉。 

(3) 创建 usersDataFrame: 结合 usersRDDRows 和 schemaforusers StructType 的 元 数据 信 
息 基 于 RDD 创建 DataFrame， 这 时 RDD 就 有 了 元 数据 信息 的 描述 。 





ODP 














1. val schemaforusers = StructType ("UserID::Gender::Age::0OccupationID:: 
Zip-code" .split ("::"). 
2 map (column => StructField(column, StringType, true))) 
// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
EE val usersRDDRows: RDD[Row] = usersRDD.map(_ .split("::")) .map(line => 


Row (line (0) .trim,line(1) .trim,line(2) .trim,line(3) .trim,line (4). 


trim) ) // 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 


4. val usersDataFrame = spark.createDataFrame (usersRDDRows, schemaforusers) 
// 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 DataFrame， 这 时 RDD 就 有 了 
// 元 数据 信息 的 描述 


(4) 同样 ， 使 用 StuctType 方式 把 评分 的 数据 格式 化 ， 在 RDD 的 基础 上 增加 数据 的 元 
数据 信息 , 即 StructType(StructField(UserID, StringType, true), StructField(MovieID, StringType, 
true), StructField(Rating, DoubleType, tue)，StructField(Timestamp, StringType, true) ) 的 格式 。 

(5) 从 评分 ratingsRDD 的 每 行 数据 按 "::" 分 隔 符 分 割 ， 把 评分 的 每 条 数据 变 成 以 Row 为 
单位 的 数据 ，Row 每 行 中 的 数据 格式 为 〈 用 户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 ) 。 

(6) 创建 ratingsDataFrame: 结合 ratingsRDDRows 和 schemaforratings StructType 的 元 数 
据 信息 ， 基 于 RDD 创建 ratingsDataFrame。 





i val schemaforratings = StructType ("UserID::MovieID".split("::"). 

如 map (column => StructField(column, StringType, true))). 

3 add ("Rating", DoubleType, true). 

a add ("Timestamp", StringType, true) 

5 

| 请 Val ratingsRDDRows = ratingsRDD.map( .split("::")) .map(1ine => Row 


(line(0) .trim,line(1). 
trim,line(2) .trim.toDouble, line (3) .trim)) 
val ratingsDataFrame = spark.createDataFrame (ratingsRDDRows, schemaforratings) 


wo” 


(7) 同样 ， 使 用 StructType 方式 把 电影 的 数据 格式 化 ， 在 RDD 的 基础 上 增加 电影 数据 


。448 。 


第 12 章 “Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 








的 元 数据 信息 ， 即 StructType(StructField(MovieID，StringType，true) ， StructField(Title, 
StringType, true)，StructField(Genres, DoubleType, true)) 的 格式 。 

(8) 从 电影 moviesRDD 的 每 行 数据 按 "::" 分 隔 符 分 割 ， 把 电影 的 每 条 数据 变 成 以 Row 为 
单位 的 数据 ，Row 每 行 中 的 数据 格式 为 《电影 卫 、 电 影 名 、 电 影 类 型 ) 。 

(9) 创建 moviesDataFrame: 结合 moviesRDDRows 和 schemaformovies StructType 的 元 
数据 信息 ， 基 于 RDD 创建 moviesDataFrame。 


1 val schemaformovies = StructType ("MovieID::Title::Genres".split ("::"). 
p map (column => StructField(column, StringType, true))) 
// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 

3 Val moviesRDDRows = moviesRDD.map( .split("::")) .map(line => Row 
(Line(0) .trim,line(1). 

4. trim, line (2) .trim) ) // 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 

ra val moviesDataFrame = spark.createDataFrame (moviesRDDRows, schemaformovies) 
// 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 DataFrame， 这 时 RDD 就 有 了 
// 元 数据 信息 的 描述 


(10) 在 ratingsDataFrame 中 使 用 filter 过 滤 算 子 ， 过 滤 出 电影 ID 等 于 1193 的 数据 ， 这 
里 能 够 直接 指定 电影 ID 的 原因 是 DataFrame 中 有 该 元 数据 信息 。 

(11) 评分 数据 ratingsDataFrame 和 用 户 数 据 进 行 Join 关联 ，Join 的 时 候 直接 指定 基于 用 
户 了 D 进行 Join， 这 相对 于 原生 的 RDD 操作 而 言 更 加 方便 、 快 捷 。 

(12) 然后 选择 性 别 、 年 龄 数据 。 可 以 直接 通过 元 数据 信息 中 的 Gender 和 Age 进行 数据 
的 筛选 。 

(13) 使 用 groupBy 算 子 对 性 别 、 年 龄 进行 分 组 。 可 以 直接 通过 元 数据 信息 中 的 Gender 
和 Age 进行 数据 的 groupBy 操作 。 

(14) 基于 groupBy 分 组 信息 进行 计数 统计 操作 。 

(15) 显示 出 分 组 统计 后 的 前 10 条 信息 。 

代码 如 下 。 


:这 ratingsDataFrame.filter(s" MovieID = 1193") 
// 这 里 能 够 直接 指定 MovieID 的 原因 是 DataFrame 中 有 该 元 数据 信息 
je .join (usersDataFrame, "UserID") 
//Join 的 时 候 直 接 指定 基于 UserID 进行 Join， 这 相对 于 原生 的 RDD 操作 而 言 
// 加 方便 、 快 捷 
:全 .Select ("Gender", "Age") 


// 直 接 通过 元 数据 信息 中 的 Gender 和 age 进行 数据 的 筛选 


4. .groupBy ("Gender", "Age") 

// 直 接 通过 元 数据 信息 中 的 Gender 和 age 进行 数据 的 groupBy 操作 
5 -count () // 基 于 groupBy 分 组 信息 进行 count 统计 操作 
6. -show(10) // 显 示 出 分 组 统计 后 的 前 10 条 信息 


在 IDEA 中 运行 代码 ， 结 果 如 下 。 
功能 一 : 通过 DataFrame 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 人 ? 


+—- 一 一 一 二 一 一 一 十 一 一 一 一 一 + 


OOODPpP 
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Sl F| 501 431 
Da ES 有 | 
TEs oo 101 
了 21 II ESTL92U 
3 F125| 1401 
Yas ll MI| 451 1361 
15. +-----— 人 == 站 三 == 三 = 全 


16. only showing top 10 rows 


接 下 来 , 通过 Spark SQL 中 的 SQL 语句 实现 大 数据 电影 点 评 系统 用 户 行为 分 析 , 统计 某 
特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 人 。 这 里 分 别 使 用 全 局 临时 视图 
GlobalTempView、 临 时 视图 TempView 两 种 SQL 语句 方式 来 实现 。 具 体 实现 步骤 从 
DataFrame 创建 全 局 临时 视图 或 者 临时 视图 ， 然 后 编写 常规 的 SQL 代码 语句 ， 在 Spark 执行 
SQL 语句 操作 进行 展示 。 全 局 临时 视图 GlobalTempView、 临 时 视图 LocalTempView 的 区 别 
参考 本 章 的 知识 点 内 容 。 两 种 SQL 方式 实现 的 代码 如 下 。 

1.  ， println(" 功 能 二 : 用 GlobalTempVievw 的 SQL 语句 实现 某 特 定 电影 观看 者 中 男性 和 女性 不 

同年 龄 分 别 有 多 少 人 ? ") 








这 ratingsDataFrame.createGlobalTempView ("ratings") 

三 全 usersDataFrame.createGlobalTempView ("users") 

4. 

5 spark.sql ("SELECT Gender，Rge，count (*) from global temp.users u join 
global temp.ratings as r on u.UserID = r.UserID where MovieID = 1193" + 

后 = " group by Gender, Age") .show (10) 

7. 

8. println ("功能 二 : 用 LocalTempView 的 SQL 语句 实现 某 特定 电影 观看 者 中 男性 和 女性 
不 同年 龄 分 别 有 多 少 人 ? ") 

9. ratingsDataFrame.createTempView ("ratings") 

和 DO usersDataFrame.createTempView ("users") 

让 

< spark.sql ("SELECT Gender，Rge，count (*) from users u join ratings as 
r on u.UserID = r.UserID where MovieID = 1193" + 

Ls " group by Gender, Age") .show (10) 


在 IDEA 中 运行 代码 ， 结 果 如 下 : 
1. ”功能 二 : 用 GlobalTempView 的 SQL 语句 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 





有 多 少 人 ? 
2. +------ i + 
3. |Gender|lAgelcount (1) 1 
4. +------ 0 + 
ell F | 451 55° 
6 | M 1 501 102 | 
|| M El 26 | 
Reik E | 561 39.1 
Sel E | 501 43 1 
Ee | F| 181 Sal 
| F | 0 
| M 181 2 
a F Za 140 | 
14. 1 M 451 136 1 
15. +------ 十 一 一 一 二 一 一 一 一 一 一 一 一 + 
16. only showing top 10 rows 
Ls 
18. 功能 二 : 用 LocalTempView 的 SQL 语句 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 
多 少 人 ? 
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卫 85 
20% 
2 
223 
3 
24. 
Ze 
2 
Ze 
28. 
2 
30. 
3 
32- 
人 3 





本 ES 二 二 
IlGender|Agelcount (1) 1 
人 和 十 
I E1 451 55 | 
1 MI1 50I 102 1 
1 M | 之 Cl 
1 F| 561 390 1 
1 F| 501 | 
1 F| 181 | 
1 F 可 | 10 | 
1 M1 181 192 | 
1 B25 140 1 
1 M1 451 136 | 
二 全 


only showing top 10 


12.7 通过 Spark SQL 下 的 两 种 不 同方 式 实现 
口碑 最 佳 电影 分 析 


所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 TopN 计算 可 以 有 多 种 实现 方式 , 其 中 Spark 
SQL 下 有 两 种 不 同方 式 。 
Spark SQL 方式 一 : 通过 DataFrame 和 RDD 结合 的 方式 ， 本 节 将 阐述 。 

Spark SQL 方式 二 : 通过 纯粹 使 用 DataFrame 方式 计算 ， 本 节 将 阐述 。 

RDD 方式 : 纯粹 通过 RDD 的 方式 实现 ，12.2 节 已 经 详细 阐述 过 。 

DataSet 方式 : 例如 ， 纯 粹 通过 DataSet 对 电影 点 评 系统 进行 流行 度 和 不 同年 龄 阶段 
兴趣 分 析 ， 将 在 12.11 节 亲 述 。 

RDD 方式 : 在 12.2 节 通 过 RDD 实现 分 析 电 影 流 行 度 分 析 统 计 实战 中 ,我 们 已 经 对 纯粹 
通过 RDD 的 方式 实现 所 有 电影 中 平均 得 分 最 高 〈 口 碑 最 好 ) 的 电影 的 代码 实现 进行 过 详细 
曾 述 ， 这 里 不 再 重复 。 通 过 RDD 的 方式 实现 的 代码 如 下 。 
println (" 纯 粹 通过 RDD 的 方式 实现 所 有 电影 中 平均 得 分 最 高 〈 口 碑 最 好 ) 的 电影 TopN:") 

val ratings= ratingsRDD.map(_ .split("::")).map(x => (x(0), x(1), 
// 格 式 化 出 电影 ID 和 评分 


ratings.map (x=> (x. 2, (Xx. 3.toDouble,1.toDouble) ) ) // 格 式 化 成 Key-Value 的 方式 
:TreduceByRey((z» yy) => (ze LF Ve lx 2 


// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 
.map (x => (x. 2. 1.toDouble/x. 2. 2.toDouble,x. 1))// 求 出 电影 平均 分 


OOODD 


加 oo 


必 


X(2))) .cache() 


.sortByKey (false) 


// 降 序 排列 


可 也 (下 => (x 27 Kl 


.take (10) 


// 取 Top10 


.foreach (println) // 打 印 到 控制 台 
Spark SQL 方式 一 : 现在 通过 DataFrame 和 RDD 相 结 合 的 方式 计算 所 有 电影 中 平均 得 分 
最 高 (口碑 最 好 ) 的 电影 TopN 以 及 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 〈 最 流行 电影 ) 的 电 
影 TopN。 
评级 文件 ratings.dat 的 格式 描述 如 下 。 


UserID: :MovieID::Rating::Timestamp 
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2. 用户 ID、 电 影 ID、 评 分 数据 、 时 间 戳 

通过 DataFrame 和 RDD 相 结合 的 方式 计算 所 有 电影 中 平均 得 分 最 高 〈 口 碑 最 好 ) 的 电 
影 TopN 的 具体 方法 如 下 。 

(1) 之 前 我 们 已 经 结合 ratingsRDDRows 的 行 数 据 和 StructType 的 schemaforratings 元 数 
据 信 息 基于 RDD 创建 了 ratingsDataFrame。 打 印 ratingsDataFrame 的 结构 体 显 示 如 下 。 


ratingsDataFrame.printSchema () 


> | 1-- UserID: string (nullable = true) 
3 1-- MovieID: string (nullable = true) 
二 1-- Rating: double (nullable = true) 
a 1-- Timestamp: string (nullable = true) 


(2) 通过 DataFrame 方式 从 ratingsDataFrame 中 选择 两 列 数据 (电影 ID， 评 分 数据 ) ， 
然后 按照 电影 ID 进行 分 组 ， 使 用 avg("Rating") 算 子 计算 出 每 部 电影 的 平均 分 数 。 

(3) 然后 将 ratingsDataFrame 转换 成 RDD， 格 式 为 (电影 DD， 平 均 分 )。 

(4) 转换 为 RDD 以 后 ， 接 下 来 结合 RDD 的 方式 进行 统计 分 析 。 将 RDD 每 行 数据 ( 电 
影 DD， 平均 分 ) 格式 化 成 Key-Value， 即 平均 分 ， (电影 DD， 平 均 分 ) ) 。 

(5) 然后 使 用 RDD 的 sortBy 算 子 按 Key 平均 分 进行 排序 。 排 序 以 后 的 输出 格式 为 〈 平 
均 分 ，〈 电 影 ID， 平 均 分 ) ) 。 

(6) 进行 map 转换 ， 取 元 组 的 第 2 个 数据 (电影 DD， 平均 分 的 前 10 名 打印 输出 。 

通过 DataFrame 和 RDD 相 结 合 的 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电 
影 TopN 代码 如 下 。 

1. println ("通过 DataFrame 和 RDD 相 结合 的 方式 计算 所 有 电影 中 平均 得 分 最 高 〈 口 碑 最 好 ) 
的 电影 TopN:") 

FatingsDataFrame .select ("MovieID", "Rating") .groupBy ("MovieID"). 
avg ("Rating") .rdd. 


map (row=> (row (1), (row (0), row(1)))) .sortBy( . 1.toString.toDouble, false) . 
map (tuple => tuple. 2) .collect.take (10) .foreach (Println) 


E IDEA 中 运行 代码 ， 统 计 所 有 电影 中 平均 得 分 最 高 〈 口 碑 最 好 ) 的 电影 Top10， 输 出 
下。 


通过 DataFrame 和 RDD 相 结 合 的 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 TopN: 
(3656, 5.0) 
(3280, 5.0) 
(989,5.0) 
(787,5.0) 
(3607, 5.0) 
(3172, 5.0) 
(3233, 5.0) 
. (3881,5.0) 
0. (1830,5.0) 
1. (3382,5.0) 


以 MAWOND 


滞 
E> 


PPO P 





Spark SQL 方式 二 : 纯粹 使 用 DataFrame 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 》 
的 电影 TopN。 

纯粹 使 用 DataFrame 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 TopN 代码 
如 下 。 
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import spark.sqlContext.implicits. 


. println ("通过 纯粹 使 用 DataFrame 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电 
影 TopN:") 

2 ratingsDataFrame.select ("MovieID", "Rating") .groupBy ("MovieID"). 

六 avg ("Rating") .orderBy ($"avg (Rating)".desc) .show (10) 


下 面 详细 阐述 一 下 纯粹 使 用 DataFrame 方式 的 具体 实现 思路 。 

(1) 导入 SparkContext 隐 式 转换 的 方法 。sqlContextimplicits 继承 自 SQLImplicits， 
SQLImplicits 中 包括 一 系列 的 隐 式 方法 集 ， 隐 式 方法 可 以 将 普通 的 Scala 对 象 隐 式 转换 成 
[Dataset] 。 

ratingsDataFrame 结构 如 下 。 


ratingsDataFrame.printSchema () 


;| 1-- UserID: string (nullable = true) 
作 1-- MovieID: string (nullable = true) 
3 1-- Rating: double (nullable = true) 
业 1-- Timestamp: string (nullable = true) 


(2) 从 ratingsDataFrame 使 用 select 方法 选择 电影 ID 、 评 分 数据 两 列 。 我 们 使 用 
ratingsDataFrame.select("MovieID", "Rating").explain(true)， 查 看 select explain 的 解析 过 程 。 

@ 经 sql 解析 器 词法 分 析 生 成 未 解析 的 逻辑 计划 ， 从 [UserID#4, MovieID#5, Rating#6， 
Timestamp#7] 中 投影 选择 未 解析 的 两 列 数据 ， 电 影 DD、 评 分 数据 。 

@ 通过 语法 分 析 器 , 形成 解析 以 后 的 逻辑 计划 。 取 到 电影 ID 、 评分 数据 , 即 [MovieID#5， 
Rating#6]。 

@ 经 优化 器 进行 优化 ， 生 成 优化 以 后 的 逻辑 计划 。 这 里 仅 做 了 select 简单 操作 ， 不 用 
优化 。 

@ 然后 通过 Spark 计划 ， 生 成 物理 计划 。 

explain 的 解析 过 程 如 下 。 
== Parsed Loical Plan == // 生 成 未 解析 的 逻辑 计划 


"Project [unresolvedalias('MovieID, None), unresolvedalias('Rating, None)] 
+- LogicalRDD [UserID#4, MovieID#5, Rating#6, Timestamp#7] 


== Analyzed Logical Plan == // 解 析 以 后 的 逻辑 计划 

MovieID: string，Rating: double 

Project [MovieID#5, Rating#6] 

+- LogicalRDD [UserID#4, MovieID#5, Rating#6, Timestamp#7] 


co vawm 心 wN 


上 FF F 
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. == Optimized Logical Plan ==  // 生 成 优化 以 后 的 逻辑 计划 
. Project [MovieID#5, Rating#6] 
. +- LogicalRDD [UserID#4, MovieID#5, Rating#6, Timestamp#7] 


== physilcal Plan == // 生 成 物理 计划 
- *Project [MovieID#5, Rating#6] 
. +- Scan ExistingRDD[UserID#4,MovieID#5,Rating#6,Timestamp#7] 


(3) 使 用 groupBy 方法 按照 电影 ID 进行 分 组 。 使 用 groupBy 算 子 将 返回 的 数据 类 型 是 


RelationalGroupedDataset。 在 RelationalGroupedDataset 类 中 包括 所 有 可 用 的 聚集 函数 ， 如 计 
数 平 均 分 的 函数 avg 等 。 
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Spark DataSet scala 框架 源码 中 的 groupBy 源码 如 下 。 


: 


2 


/** 
* 使 用 指定 列 对 数据 集 进 行 分 组 ， 可 以 在 数据 集 上 运行 聚集 函数 。 [RelationalGrouped 
* Dataset] 中 包括 所 有 可 用 的 聚集 函数 。 只 能 利用 现 有 列 的 列 名 〈 即 不 能 构造 表达 式 ) 进行 
* groupBy 操作 
St 

// 例如 : 计算 由 各 部 门 分 组 的 所 有 数值 列 的 平均 值 

ds.groupBy ("department") .avg () 


// 计 算 最 大 的 年 龄 和 平均 工资 ， 按 部 门 和 性 别 分 组 
ds.groupBy($"department", $"gender") .agg (Map( 
salary” => Mavg, 
magen -> "max" 
) ) 
a 
* @group untypedrel 
* @since 2.0.0 
*/ 
@scala.annotation.varargs 
def groupBy (coll: String, cols: String*): RelationalGroupedDataset = { 
val colNames: Seq[String] = coll +: cols 
RelationalGroupedDataset ( 
toDF(), colNames.map(colName => resolve(colName)), Relational 
GroupedDataset .GroupByType) 


六 美美 装 闫 美美 六 


} 


(4) 使 用 avg 方法 计算 评分 数据 的 平均 分 。 使 用 ratingsDataFrame.select("MovieID"， 
"Rating").groupBy("MovieID").avg("Rating").explain(true) 查 看 avg 的 解析 过 程 。 

G@ 经 sql 解析 器 词法 分 析 生 成 逻辑 计划 ， 在 分 组 中 使 用 育 集 函数 Aggregate 形成 : 电影 
ID， 评 分 平均 分 。 

@ 通过 语法 分 析 器 ， 形 成 解析 以 后 的 逻辑 计划 。 取 到 电影 ID， 评分 平均 分 。 

@ 经 优化 器 进行 优化 ， 生 成 优化 以 后 的 逻辑 计划 。 这 里 不 需要 优化 。 

@ 然后 通过 Spark 计划 ， 生 成 物理 计划 。 使 用 hash 分 区 ， 并 行 度 定义 为 200。 

avg 的 解析 过 程 如 下 。 

== Parsed Logical Plan == // 生 成 逻辑 计划 


Aggregate [MovieID#5], [MovieID#5, avg (Rating#6) AS avg (Rating)#37] 
+- Project [MovieID#5, Rating#6] 
+- LogicalRDD [UserID#4, MovieID#5, Rating#6, Timestamp#7] 


== Analyzed Logical Plan ==// 解 析 以 后 的 逻辑 计划 
MovieID: string，avg (Rating) : double 
Aggregate [MovieID#5], [MovieID#5, avg (Rating#6) RS avg (Rating)#37] 
+- Project [MovieID#5, Rating#6] 
+- LogicalRDD [UserID#4, MovieID#5, Rating#6, Timestamp#7] 


- == Optimized Logical Plan == // 生 成 优化 以 后 的 逻辑 计划 


- Aggregate [MovieID#5], [MovieID#5, avg (Rating#6) RS avg (Rating)#37] 
- +- Project [MovieID#5, Rating#6] 


+- LogicalRDD [UserID#4, MovieID#5, Rating#6, Timestamp#7] 
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== Physical Plan == // 生 成 物理 计划 
*HashAggregate (keys=[MovieID#5], functions=[avg (Rating#6)], output=[MovieID#5, 
avg (Rating)#37]) 
+- Exchange hashpartitioning (MovieID#5, 200) 

+- *HashAggregate (keys=[MovieID#5], functions=[partial avg (Rating#6)], 

output=[MovieID#5, sum#44, count#45L]) 

+— *Project [MovieID#5, Rating#6] 
+- Scan ExistingRDD[UserID#4,MovieID#5,Rating#6,Timestamp#7] 


(5) 使 用 orderBy 方法 按 平均 分 进行 降序 排列 ， 然 后 打印 输出 前 10 个 数据 。 同 样 ， 经 过 
逻辑 计划 、 解 析 后 的 逻辑 计划 、 优 化 后 的 逻辑 计划 、 物 理 计划 几 个 步 又， 这 里 不 再 袭 述 。 
orderBy 的 解析 过 程 如 下 。 





Parsed Logical Plan == 
"Sort ['avg(Rating) DESC NULLS LAST], true 
+- Aggregate [MovieID#5], [MovieID#5, avg (Rating#6) RS avg (Rating)#54] 
+- Project [MovieID#5, Rating#6] 
+- LogicalRDD [UserID#4, MovieID#5, Rating#6, Timestamp#7] 


== Analyzed Logical Plan == 
MovieID: string, avg (Rating): double 
Sort [avg (Rating)#54 DESC NULLS LAST], true 
+- Aggregate [MovieID#5], [MovieID#5, avg (Rating#6) RS avg (Rating)#54] 
+- Project [MovieID#5, Rating#6] 
+- LogicalRDD [UserID#4, MovieID#5, Rating#6, Timestamp#7] 


. == Optimized Logical Plan == 
. Sort [avg (Rating)#54 DESC NULLS LAST], true 
. +- Aggregate [MovieID#5], [MovieID#5, avg (Rating#6) RS avg (Rating)#54] 


+- Project [MovieID#5, Rating#6] 
+- LogicalRDD [UserID#4, MovieID#5, Rating#6, Timestamp#7] 


. == Physical Plan == 
. *Sort [avg (Rating)#54 DESC NULLS LAST], true, 0 
. +- Exchange rangepartitioning (avg (Rating)#54 DESC NULLS LAST, 200) 


+- *HashAggregate (keys=[MovieID#5], functions=[avg (Rating#6)], output= 
[MovieID#5, avg (Rating)#54]) 
+- Exchange hashpartitioning (MovieID#5, 200) 
+- *HashAggregate (keys=[MovieID#5], functions=[partial avg (Rating#6)], 
output= [MovieID#5, sum#62, count#63L]) 
+- *Project [MovieID#5, Rating#6] 
+- Scan ExistingRDD[UserID#4,MovieID#5,Rating#6,Timestamp#7] 


在 IDEA 中 运行 代码 ， 统 计 纯 粹 使 用 DataFrame 方式 计算 所 有 电影 中 平均 得 分 最 高 〈 口 
碑 最 好 ) 的 电影 TopN， 输 出 结果 如 下 : 


POANAONP 


通过 纯粹 使 用 DataFrame 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 TopN: 
+ 一 一 -一 一 一 二 -一 一 一 一 一 一 一 一 一 一 + 
IMovieID|avg (Rating)| 
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12.8 通过 Spark SQL 下 的 两 种 不 同方 式 实现 最 流行 电影 分 析 


类 似 于 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 TopN 计算 思路 ， 所 有 电影 中 粉丝 
或 者 观看 人 数 最 多 (最 流行 电影 ， 的 电影 TopN 同样 可 有 多 种 实现 方式 ， 其 中 Spark SQL 下 
有 两 种 不 同方 式 。 

Spark SQL 方式 一 : 通过 DataFrame 和 RDD 相 结 合 的 方式 。 

Spark SQL 方式 二 : 通过 纯粹 使 用 DataFrame 方式 计算 。 

RDD 方式 : 纯粹 通过 RDD 的 方式 实现 ，12.2 节 已 经 详细 阐述 过 。 

DataSet 方式 : 例如 ， 纯 粹 通过 DataSet 对 电影 点 评 系统 进行 流行 度 和 不 同年 龄 阶段 
兴趣 分 析 ， 将 在 12.11 节 阐 述 。 

RDD 方式 : 在 12.2 节 通 过 RDD 实现 分 析 电 影 流行 度 分 析 统 计 实 战 中 ,我 们 已 经 对 纯粹 
通过 RDD 的 方式 实现 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 (最 流行 电影 ) 的 电影 TopN 的 代码 
实现 进行 过 详细 阐述 ， 这 里 不 再 重复 。 通 过 RDD 的 方式 实现 的 代码 如 下 。 

1. ”println ("纯粹 通过 RDD 的 方式 计算 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 (最 流行 电影 ) 的 电影 


OODOCDO 


TODNz 
ps ratings.map(x => (x. 2, 1)) .reduceByKey( + ) .map(x => (x. 2, x. 1)). 
3a sortByKey (false) .map (x => (x. 2, x. 1)).collect() 
中 .take (10) .foreach (Println) 


Spark SQL 方式 一 : 本 节 通 过 DataFrame 和 RDD 相 结合 的 方式 计算 所 有 电影 中 粉丝 或 者 
观看 人 数 最 多 《〈 最 流行 电影 ) 的 电影 TopN， 具 体 实现 思路 如 下 。 

(1) 通过 DataFrame 方式 从 ratingsDataFrame 中 选择 两 列 数 据 (电影 ID， 时 间 戳 ) ， 然 
后 按照 电影 ID 进行 分 组 ， 使 用 count0 算 子 计 算出 每 部 电影 观看 的 总 次 数 。 

(2) 将 ratingsDataFrame 转换 成 RDD， 格 式 为 〈 电 影 ID， 总 次 数 ) 。 

(3) 转换 为 RDD 后 ， 接 下 来 结合 RDD 的 方式 进行 统计 分 析 。 将 RDD 每 行 数据 (电影 
ID， 总 次 数 ) 格式 化 成 Key-Value， 即 (总 次 数 ， (电影 DDD， 总 次 数 ) ) 。 

(4) 然后 使 用 RDD 的 sortBy 算 子 按 Key 总 次 数 进行 排序 。 排 序 以 后 的 输出 格式 为 (总 
次 数 ，( 电 影 DD， 总 次 数 ) ) 。 

(5) 进行 map 转换 ， 取 元 组 的 第 2 个 数据 (电影 DD， 总 次 数 ) 的 前 10 名 打印 输出 。 

通过 DataFrame 和 RDD 结合 的 方式 计算 最 流行 电影 〈 即 所 有 电影 中 粉丝 或 者 观看 人 数 
最 多 ) 的 电影 TopN 代码 如 下 。 

1. println(" 通 过 DataFrame 和 RDD 结合 的 方式 计算 最 流行 电影 〈 即 所 有 电影 中 粉丝 或 者 观看 

人 数 最 多 ) 的 电影 TopN:") 


2 FatingsDataFrame .select ("MovieID","Timestamp") .groupBy ("MovieID"). 
count () -rdd . 

冯 介 map (row => (row(1) -toString-toLong， (row(0), row(1)))).sortByKey (false) . 

4. map (tuple => tuple. 2) .collect() -take (10) .foreach (println) 
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在 IDEA 中 运行 代码 ， 统 计 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 〈 最 流行 电影 ) 的 电影 
Top10， 输 出 结果 如 下 。 


3 


Fo~wawm 必 wb 


i 


通过 DataFrame 和 RDD 结合 的 方式 计算 最 流行 电影 即 〈 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 ) 的 
电影 TopN: (2858, 3428) 
(260,2991) 

(1196, 2990) 

(1210, 2883) 
(480,2672) 
(2028,2653) 
(589,2649) 

(2571, 2590) 

(1270, 2583) 
(593,2578) 


Spark SQL 方式 二 : 纯粹 通过 DataFrame 的 方式 计算 最 流行 电影 〈 即 所 有 电影 中 粉丝 或 
者 观看 人 数 最 多 ) 的 电影 TopN，ratingsDataFrame 可 以 直接 按照 电影 ID 进行 分 组 ， 再 根据 
分 组 进行 统计 计数 ， 然 后 打印 输出 统计 列 排 序 后 的 结果 ， 代 码 如 下 。 


1 


w 心 wN 


println ("纯粹 通过 DataFrame 的 方式 计算 最 流行 电影 ( 即 所 有 电影 中 粉丝 或 者 观看 人 数 
最 多 ) 的 电影 TopN: ") 
// ratingsDataFrame.select ("MovieID", "Timestamp"). 
Pa ratingsDataFrame.select ("MovieID"). 
ratingsDataFrame .groupBy ("MovieID") .count (). 
orderBy($"count".desc) .show (10) 


在 IDEA 中 运行 代码 ， 统 计 纯粹 通过 DataFrame 的 方式 计算 最 流行 电影 〈 即 所 有 电影 中 
粉丝 或 者 观看 人 数 最 多 ) 的 电影 TopN， 输 出 结果 如 下 。 


12.9 


纯粹 通过 DataFrame 的 方式 计算 最 流行 电影 即 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 (最 流行 电影 ) 


的 电影 TopN: 
[Stage 84:=============================> (1 + 1) / 2]+-------— 中 二 + 
IMovieID|countl 
======= = 二 = 三 三 十 
| 2858 | 3428| 
1 260 | 299L1 
1 196-1 2990| 
1 1210 | 28831 
| 480 | 26721 
1 2028 | 26531 
1 589 | 26491 
1 2571 2590I 
1 1270 | 25831 
1 So93E2576I 
+-- 一 一 一 +- 一 一 一 + 


. only showing top 10 rows 


通过 DataFrame 分 析 最 受 男性 和 女性 喜爱 电影 TopN 


在 123 节 通 过 RDD 分 析 各 种 类 型 的 最 喜爱 电影 TopN 及 性 能 优化 技巧 中 ， 我 们 已 经 对 
纯粹 通过 RDD 的 方式 实现 最 受 男性 和 女性 喜爱 电影 TopN 的 代码 实现 进行 过 详细 前述 , 这 里 
不 再次 述 。 


.457 。 


中 篇 “商业 案例 








纯粹 使 用 RDD 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10 的 代码 如 下 。 


:A 
2 
3< 
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println ("纯粹 使 用 RDD 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10:") 
maleFilteredRatings.map (x=> (x. 2, (x. 3.toDouble,1) ) ) // 格 式 化 为 Key-Value 的 形式 
reduceByKey((xy Y) 三 > 人 (了 Y: 1 2 + YY 2) 
// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 
-map(x => (x. 2. 1.toDouble / x. 2. 2，x-_ 1)) // 求 出 电影 平均 分 
.SortByKey (false) // 降 序 排列 
map(x => (x. 2, x. 1)) 
.take (10) // 取 Top10 
.foreach (println) // 打 印 到 控制 台 


在 本 节 ， 我 们 纯粹 使 用 DataFrame 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10， 具 体 实 
现 思 路 如 下 。 

(1) 第 12.6 节 结 合 Row 和 StructType 的 元 数据 信息 基于 RDD 创建 DataFrame， 分 别 创 
建 了 usersDataFrame 和 ratingsDataFrame。 

(2) 统计 生成 genderRatingsDataFrame 。 根 据 评 分 ratingsDataFrame 和 用 户 数 据 
usersDataFrame 按 用 户 ID 号 Join， 并 进行 缓存 。 

genderRatingsDataFrame 格式 如 下 。 


1 
| 
4 
3 
= 
7 
8 
9 
10 
3 


(3% 


输出 。 


Ee Es a Es a Rs a + 
IUserID|IMovieID|Rating|Timestamp|Gender|AgelOccupationID|Zip-codel 
证 和 4 a 4 一 十 
I L090 12501 3.0 19749316321 M25 yl 94105 | 
| 1090 1 2997| S30 O74931925| Mi 25] yi 94105 | 
Wool 5891 4.0 19749306541 Mi 5 Tn 94105 | 
Logo sl 3.0 19749305691 M125| | 94105 | 
| 1090 | 12871 4.0 19749316321 ME291 uk 94105 | 
| 1090 | E29 4.0 19749315751 国有 4 了 下 94105 | 
| 1090 1 908 1 3.0 19749306721 MI 党 9 | | 94105 | 
| 1090 1 909 1 3.0 19749317631 Ml | ‘Jol 94105 | 
| 1090 1 | 4.0 19749316471 M1 251 不 人 94105 | 
| 1090 1 P30| 3.0 19749320911 Mi Sl el 94105 | 
= 二 三 三 = 二 二 二 二 二 二 二 二 二 和 机 二 二 二 二 三 + 


. only showing top 10 rows 


genderRatingsDataFrame 按 性 别 为 “ 男 ” 进 行 过 滤 。 
(4) 过 滤 以 后 ， 按 电影 ID 进行 分 组 ， 按 评分 求 平均 分 ， 然 后 按 平 均 分 进行 排序 ， 打 印 





纯粹 使 用 DataFrame 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10 代码 如 下 。 


val schemaforusers: StructType = StructType ("UserID::Gender::Age:: 
OccupationID: :Zip-code".split("::"). 

map (column => StructField(column, StringType, true))) 

// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
val usersRDDRows: RDD[Row] = usersRDD.map( .split("::")) .map (line => 
Row (line (0) .trim,line(1). 

trim,line(2) .trim,line(3) -trim, Line(4) .trim)) 

// 把 我 们 的 每 一 条 数据 变 成 以 Row 为 单位 的 数据 
val usersDataFrame: DataFrame = spark.createDataFrame (usersRDDRows, 
schemaforusers) // 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 DataFrame， 


// 这 时 RDD 就 有 了 元 数据 信息 的 描述 
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Sh val schemaforratings = StructType ("UserID::MovieID".split("::"). 
8 map(column => StructField(column, StringType, true))). 
Os add ("Rating", DoubleType, true). 


10. add ("Timestamp", StringType, true) 

Ti 

I val ratingsRDDRows: RDD[Row] = ratingsRDD.map( .split("::")) .map (1ine=> 
Row (line (0) .trim,line(1). 

寻 trim,line(2) .trim.toDouble, line (3) .trim)) 

14. val ratingsDataFrame: DataFrame = spark.createDataFrame (ratingsRDDRows, 
schemaforratings) 

了 

16. val genderRatingsDataFrame = TatingsDataFrame.join(usersDataFrame， 


"UserID") -cache () 


18. val maleFilteredRatingsDataFrame 


= genderRatingsDataFrame.filter ("Gender= 
'M'") .select ("MovieID", "Rating") 


20. maleFilteredRatingsDataFrame.groupBy ("MovieID") .avg ("Rating") .orderBy 
($"avg (Rating)".desc) .show(10): 


在 IDEA 中 运行 代码 ， 统 计 纯粹 使 用 DataFrame 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 
Top10 代码 ， 输 出 结果 如 下 。 
纯粹 使 用 DataFrame 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10: 


be 

2. +------- 二 一 一 一 一 一 一 二 一 一 一 + 
3. |MovieID|avg (Rating) | 
4. +------ i 
ol 5-0 | 
6a "| 439 1 SsO ll 
| 130 1 S00 
e000 233 SO 
ll S30 
0. | 3280 1 S20° 1 
T0650 S30 
| I890l SO 
= | S20 
4 "35LE7 sz0 
5. +------- RCR 
6. only showing top 10 rows 


接 下 来 统计 分 析 纯 粹 使 用 DataFrame 实现 所 有 电影 中 最 受 女性 喜爱 的 电影 Top10。 

在 12.3 节 通 过 RDD 分 析 各 种 类 型 的 最 受 喜爱 电影 TopN 及 性 能 优化 技巧 中 ， 我 们 已 经 
对 纯粹 使 用 RDD 实现 所 有 电影 中 最 受 女 性 喜爱 的 电影 Top10 进行 了 阐述 ， 代 码 如 下 。 
println ("纯粹 使 用 RDD 实现 所 有 电影 中 最 受 女 性 喜爱 的 电影 Top10:") 








人 femaleFilteredRatings.map (x=> (x. 2, (x._3.toDouble,1))) 
// 格 式 化 成 Key-Value 的 形式 
区 -reducepyEey tle VU => (x Dv 1 2 2)) 


// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 
4 -mapi(X => (x. 2. 1.toDouble / x. 2. 2,，x. 1)) // 求 出 电影 平均 分 
-请 .sortByKey (false) // 降 序 排列 
6 maptz => (x 27 x I 
.take (10) // 取 Top10 
8 -foreach (println) // 打 印 到 控制 台 





现在 通过 纯粹 使 用 DataFrame 的 方式 ， 实 现 所 有 电影 中 最 受 女性 喜爱 的 电影 Top10。 
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了 


femaleFilteredRatingsDataFrame.groupBy ("MovieID") .avg ("Rating"). 
orderBy ($"avg (Rating)".desc, $"MovieID".desc) .show(10) 


在 IDEA 中 运行 代码 ， 统 计 纯 粹 使 用 DataFrame 实现 所 有 电影 中 最 受 女性 喜爱 的 电影 
Top10， 输 出 结果 如 下 。 


oaAAODNP 


12.4 








纯粹 使 用 DataFrame 实现 所 有 电影 中 最 受 女性 喜爱 的 电影 Top10: 
+- 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 + 
IMovieID|avg (Rating)| 
+ 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 十 


1 1 1 
1 1 1 
1 | 1 
1 1 1 
1 | 1 
1 394 1 

1 | | 
1 1 1 
| | 1 
| 1 1 


+---- 一 一 + 一 一 一 一 一 一 一 一 一 一 十 
. only showing top 10 rows 


12.10 ”纯粹 通过 DataFrame 分 析 电 影 点 评 系统 仿 
QQ 和 微 信 、 淘 宝 等 用 户 群 


节 已 经 详细 阐述 了 通过 RDD 分 析 电 影 点 评 系 统 仿 QQ 和 微 信 等 用 户 群 分 析 。 本 节 


将 阐述 通过 DataFrame 分 析 电 影 点 评 系统 仿 QQ 和 微 信 、 淘 宝 等 用 户 群 。 
RDD 方式 : 纯粹 通过 RDD 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电 
影 TopN 分 析 代 码 如 下 。 


本 


ao 必 wwN 


println ("纯粹 通过 RDD 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 
分 件 2 
ratingsRDD.map(_ .split("::")).map(x => (x(0), x(1))).filter(x => 
targetQQUsersBroadcast .value.contains (x._1) 
ye-map(lx => (x. 2 1)):-reduceByKey( + ) -map(xw => (z= 27r x. 1))s 
sortByKey(false) .map(x => (x. 2 x- 1)).-.take(10). 
map(x => (movieID2Name.getOrElse(x. 1, null), x. 2)).foreach 
(println) 


在 IDEA 中 运行 代码 ,纯粹 通过 RDD 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核心 目标 用 户 
最 喜爱 电影 TopN 分 析 ， 输 出 结果 如 下 。 





纯粹 通过 RDD 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 : 
(American Beauty (1999),715) 

(Star Wars: Episode VI - Return of the Jedi (1983) ,586) 

(Star Wars: Episode V - The Empire Strikes Back (1980) ,579) 
(Matrix, The (1999),567) 

(Star Wars: Episode IV - A New Hope (1977),562) 

(Braveheart (1995),544) 

(Saving Private Ryan (1998),543) 

(Jurassic Park (1993),541) 
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10. 
1 


(Terminator 2: Judgment Day (1991) ,529) 
(Men in Black (1997),514) 


DataFrame 方式 : 纯粹 通过 DataFrame 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核心 目标 用 
户 最 喜爱 电影 TopN 分 析 ， 代 码 如 下 。 


3 


县 
< 后 


4. 


ratingsDataFrame.join (usersDataFrame, "UserID").filter("Age = "18'") .groupBy 
("MovieID"). 

count () .orderBy ($"count".desc) .PrintSchema () 
ratingsDataFrame .join (usersDataFrame, "UserID") .filter ("Age 
("MovieID"). 

count () .join (moviesDataFrame, "MovieID") .select ("Title", "count"). 

orderBy($"count".desc) .show (10) 


'18'") .groupBy 


在 IDEA 中 运行 代码 ， 纯 粹 通过 DataFrame 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核 心目 
标 用 户 最 喜爱 电影 TopN 分 析 ， 输 出 结果 如 下 。 


1. 纯粹 通过 DataFrame 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 : 
2. root 

党 1-- MovieID: string (nullable = true) 
”Ss 1-- count: long (nullable = false) 

Si 

6. +- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 = 一 = 本 

了 Title 1count1 

8. De 二 二， 业 

9. |American Beauty (...| 7151 

10. lstar Wars: Episod...| 5861 

11. |Sstar Wars: Episod...| 5791 

12. | Matrix, The (1999) | 5671 

13. lstar Wars: Episod...| 5621 

= | | Braveheart (1995) | 5441 

15. |Saving Private Ry...| 5431 

16. IJurassic Park (1993)| 5411 

17. |1Terminator 2: Jud...| 5291 

18. | Men in Black (1997) 1 5141 

19. +- 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 ee + 

20. only showing top 10 rows 


接 下 来 ， 统 计 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 。 
RDD 方式 : 纯粹 通过 RDD 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 
分 析 ， 代 码 如 下 。 


println ("纯粹 通过 RDD 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分析:") 
ratingsRDD.map( .split("::")).map(x => (x(0), x(1))).filter(x => 
targetTaobaoUsersBroadcast .value.contains (x. 1) 
).map(x => (x. 2, 1)).reduceByKey( + ).map(x => (x. 2, x. 1)). 
sortByKey (false) .map (x => (x. 2, x. 1)) .take(10) . 
map(x => (movieID2Name.getOrElse(x. 1, null), x. 2)).foreach(println) 


在 IDEA 中 运行 代码 ， 纯 粹 通过 RDD 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 
电影 TopN 分 析 ， 输 出 结果 如 下 。 





纯粹 通过 RDD 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 : 
(American Beauty (1999) ,1334) 

(Star Wars: Episode V - The Empire Strikes Back (1980) ,1176) 
(Star Wars: Episode VI - Return of the Jedi (1983) ,1134) 
(Star Wars: Episode IV - A New Hope (1977),1128) 
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(Terminator 2: Judgment Day (1991) ,1087) 
(Silence of the Lambs，The (1991) ,1067) 
(Matrix, The (1999) ,1049) 

(Saving Private Ryan (1998) ,1017) 

0. (Back to the Future (1985) ,1001) 

1. (Jurassic Park (1993),1000) 


纯粹 通过 DataFrame 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 ， 
代码 如 下 。 
1. println ("纯粹 通过 DataFrame 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 


FF oo ~e 


析 :") 
2 ratingsDataFrame.join(usersDataFrame, "UserID") .filter ("Age = '25'"). 
groupBy ("MovieID"). 
3 count () .join (moviesDataFrame, "MovieID") .select("Title", "count") .orderBy 


(S$"count" .desc) .show (10) 


在 IDEA 中 运行 代码 ， 纯 粹 通过 DataFrame 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 
喜爱 电影 TopN 分 析 ， 壬 险 出 结果 如 下 。 





1. 纯粹 通过 DataFrame 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 : 
2 . +-------------- 一 -一 一 一 a 
Sa il Title el 
4 。 +- 一 一 一- 一 一 一 一 一 一 一 一 一 站 
5. |American Beauty (...| 13341 
6. 1Star Wars: Episod...| 11761 
7. lStar Wars: Episod...| 11341 
8. lstar Wars: Episod...| 11281 
9. ITerminator 2: Jud...| 10871 
10. 1Silence of the La.. 10671 
11. | Matrix, The (1999) | 10491 
12. |Saving Private Ry.. 10171 
13. |Back to the ENE oe 10011 
14. lJurassic Park (1993)| 1000| 
15. +-------- 一 一- 一- 一 一 一 一 一 一 下 一 一 一 一 一 二 
16. only showing top 10 rows 


12.11 纯粹 通 过 DataSet 对 电影 点 评 系统 进行 沅 行 度 和 不 同 
年 龄 阶段 兴趣 分 析 等 


前 面 的 章节 已 经 闹 述 了 使 用 Spark 的 多 种 方式 来 实现 大 数据 电影 点 评 系统 的 功能 ， 包 括 
纯粹 RDD 方式 、DataFrame 和 RDD 相 结 合 的 方式 、 We DataFrame 方式 ; 本 节 将 使 用 
纯粹 通过 DataSet 对 电影 点 评 系统 进行 流行 度 和 不 同年 龄 阶段 兴趣 分 析 。 

纯粹 使 用 DataSet 方式 对 电影 点 评 系统 统计 se 

(1) 定义 用 户 、 评 分 、 电 影 case class 类 。 

(2) 使 用 as 方法 将 DataFrame 转换 为 DataSet 数据 结构 。 用户、 评分 、 电 影 类 是 一 个 case 
class 类 ，case class 类 的 字段 将 被 映射 到 DataSet 中 同名 的 列 。 

(3) DataSet 中 具有 用 户 、 评 分 、 电 影 的 元 数据 信息 ， 就 可 以 直接 通过 元 数据 信息 中 的 列 
名 进行 join、select、groupBy 等 算 子 操作 。 
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12.11.1 通过 DataSet 实现 某 特 定 电影 观看 者 中 男性 和 女性 不 同年 龄 的 人 数 


本 节 通 过 DataSet 实现 菜 特 定 电影 ( 即 观看 的 电影 D 等 于 1193) 观看 者 中 男性 和 女性 不 
同年 龄 分 别 有 多 少 人 。 

(1) 首先 在 Movie_ Users Analyzer DateSet scala 代码 中 定义 用 户 、 评 分 、 电 影 case class 类 。 

;| case class User (UserID:String, Gender:String, Age:String, OccupationID: 
String, Zip Code:String) 

2 case class Rating (UserID:String, MovieID:String, Rating:Double, Times 
tamp :String) 

2 case class Movie (MovieID:String, Title:String, Genres:String) 


(2) 将 usersDataFrame、ratingsDataFrame 分 别 转化 为 usersDataSet、ratingsDataSet。 


1 val schemaforusers = StructType ("UserID: :Gender: :Age: :OccupationID:: 
Zip Coder SpliE (sr) 
2 map(column => StructField(column, StringType, true))) 
// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
涝 全 val usersRDDRows = usersRDD.map( -split("::")) .map(line => Row(line 
(0) .trim,line(1). 
中 trim, Line(2) .trim,line(3) .trim,line(4) .trim)) 
// 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 
3 Val usersDataFrame: DataFrame = spark.createDataFrame (usersRDDRows, 
schemaforusers)// 结 合 Row 和 StructType 的 元 数据 信息 基于 RDD 创建 DataFrame， 
// 这 时 RDD 就 有 了 元 数据 信息 的 描述 
6 Val usersDataSet = usersDataFrame.as[User] 
7 
Be val ratingsRDDRows = ratingsRDD.map( .split("::")) .map(line => Row(line 


(0) .trim, line (1). 


De trim,line(2) .trim.toDouble, line(3) .trim)) 
10: val ratingsDataFrame = spark.createDataFrame (ratingsRDDRows, schemaforratings) 
le val ratingsDataSet = ratingsDataFrame.as[Rating] 


(3) 将 ratingsDataFrame、usersDataFrame 根据 电影 ID 关联 , 使 用 select、 groupBy、count 
等 算 子 操作 ， 通 过 DataSet 实现 电影 ID 为 1193 的 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 
人 。 代 码 如 下 。 


1. ratingsDataSet.filter(s" MovieID = 1193") 
// 这 里 能 够 直接 指定 MovieID 的 原因 是 DataFrame 中 有 该 元 数据 信息 


.join(usersDataSet, "UserID") 
//Join 的 时 候 直接 指定 基于 UserID 进行 Join， 这 相对 于 原生 的 RDD 操作 而 言 ， 更 加 
/1 方便、 快捷 
关 隔 .select ("Gender", "Age") 
// 直 接 通过 元 数据 信息 中 的 Gender 和 age 进行 数据 的 筛选 
网 .groupBy ("Gender", "Age") 
// 直 接 通 过 元 数据 信息 中 的 Gender 和 age 进行 数据 的 groupBy 操作 
5 -count () // 基 于 groupBy 分 组 信息 进行 count 统计 操作 
6. -show (10) // 显 示 出 分 组 统计 后 的 前 10 条 信息 


在 IDEA 中 运行 代码 ， 通 过 DataSet 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 的 人 
数 ， 输 出 结果 如 下 。 
1. ”功能 一 : 通过 DataSet 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 人 ? 
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2. + 一 一 一 一 一 一 和 一 一 = 十 一 = 一 一 一 和 
3. |GenderlAgelcount| 
te 二 一 一 一 生 = 一 一 一 一 人 
-| F 145- 1 | 
Be ML50 | 1021 
Ae ML) 26 | 
| Eo S56 | 39 1 
Sl F 150 1 43 1 
L053 EB 118 1 Rl 
| EN 10 1 
zl M92] 
3 F 125 | 1401 
:| M5 1 36 1 
15 。 +-—-—----— Ee 这 


16. only showing top 10 rows 


12.11.2 ”通过 DataSet 方 式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 
电影 TopN 


本 节 通 过 DataSet 实现 通过 DataSet 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电 
影 TopN。 

(1) 在 12.11.1 节 Movie Users_Analyzer DateSet.scala 代码 中 已 经 定义 了 用 户 、 评 分 、 电 影 
case class 类 。 


1 case class User (UserID:String, Gender:String, Age:String, OccupationID: 
String, Zip Code:String) 

Et case class Rating (UserID:String, MovieID:String, Rating:Double, 
Timestamp:String) 

人 case class Movie (MovieID:String, Title:String, Genres:String) 


(2) 将 评分 数据 ratingsDataFrame 分 别 转 化 为 ratingsDataSet。 


ee 
2. val ratingsRDDRows = ratingsRDD.map( .split("::")).map(line => Row(line 
(0) .trim, line (1). 


:人 trim, Line(2) .trim.toDouble, line (3) .trim)) 
4. val ratingsDataFrame = spark.createDataFrame (TatingsRDDRows，schemaforratings) 
i val ratingsDataSet = ratingsDataFrame.as[Rating] 


(3) 在 评分 数据 集中 查询 电影 ID、 评 分 两 列 ， 根 据 电 影 ID 分 组 ， 计 算 评分 的 平均 分 ， 
然后 按照 平均 分 降序 排列 ， 通 过 纯粹 使 用 DataSet 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 
最 好 ) 的 电影 Top10， 代 码 如 下 。 

1. println(" 通 过 DataSet 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 TopN: ") 

ratingsDataSet -select ("MovieID", "Rating") .groupBy ("MovieID"). 

天 后 avg("Rating") .orderBy($"avg (Rating)".desc) .show (10) 

在 IDEA 中 运行 代码 ， 通 过 纯粹 使 用 DataSet 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 
最 好 ) 的 电影 TopN， 输 出 结果 如 下 。 

通过 DataSet 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 TopN: 


-一 -一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 十 
IMovieID|avg (Rating)| 





ao wN 
十 
| 
| 
| 
| 
| 
| 
中 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


Se 
| 3607 | ss 00l 
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《| 3881 1 全 
| | 3238 员 a 
eonll 31721 Sa0 
0 1 3280 1 5 
| | 3656 | Se 
| 787 1 5.0 
3 389 Sa0 
:| 18301 5:0 
15. +-—------ 十 -一 一 一 一 一 一 一 一 一 一 


16. only showing top 10 


IOWS 


12.11.3 ”通过 DataSet 方式 计算 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 (最 流 
行 电影 ) 的 电影 TopN 


本 节 通 过 DataSet 实现 通过 DataSet 的 方式 计算 即 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 (最 


流行 电影 ) 的 电影 TopN。 


(1) 在 12.11.1 节 Movie_ Users_Analyzer DateSetscala 代码 中 已 经 定义 了 用 户 、 评 分 、 电 


影 case class 类 。 


I case class User (UserID:String, Gender:String, Age:String, OccupationID: 
String, Zip Code:String) 
之 case class Rating (UserID:String, MovieID:String, Rating:Double, 


Timestamp:String) 


Se case class Movie (MovieID:String, Title:String, Genres:String) 


(2) 将 评分 数据 ratingsDataFrame 分 别 转 化 为 ratingsDataSet。 


0 
2. val ratingsRDDRows = 
(0) .trim,line(1). 


ratingsRDD.map( .split("::")).map(line => Row(line 


< 位 trim,line(2) .trim.toDouble, line(3) .trim)) 
4. val ratingsDataFrame = spark.createDataFrame (ratingsRDDRows, schemaforratings) 
a val ratingsDataSet = ratingsDataFrame.as [Rating] 


(3) 在 评分 数据 集中 ， 根 据 电影 ID 使 用 groupBy 先进 行 分 组 ， 然 后 使 用 Count 算 子 计 
算 每 组 的 行 数 ， 使 用 orderBy 算 子 根据 Count 计数 进行 降序 排列 。 通 过 DataSet 的 方式 计算 所 


有 电影 中 粉丝 或 者 观看 人 数 最 多 


〈 最 流行 电影 ) 的 电影 Top10， 代 码 如 下 。 


1. ”println ("纯粹 通过 DataSet 的 方式 计算 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 (最 流行 电影 ) 的 


电影 TopN:") 


ratingsDataSet .groupBy ("MovieID") .count (). 


有 
3 orderBy($"count 


IDEA 中 运行 代码 ， 通 过 


".desc) .show (10) 


DataSet 的 方式 计算 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 (最 


在 
流行 电影 ) 的 电影 TopN， 输 出 结果 如 下 : 


i 

22. -===-= 二 ~ 一 一 -一 十 
3. 1MovieIDIcount1 
A 十 二 二 三 三 一 十 
lil 2858 1 34281 
LE | 260 | 29911 


纯粹 通过 DataSet 的 方式 计算 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 (最 流行 电影 ) 的 电影 TopN: 
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1 11961 29901 
1 12101 28831 
| 480 | 26721 
| 2028 | 26531 
| 589 | 26491 
1 2957LE2S901 
1 42701 :25831 
1 53931 2578| 
4 -=== + 


. only showing top 10 rows 


12.11.4 ”纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 最 受 男 性 、 女性 喜爱 的 电影 


Top10 


本 节 通 过 纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 最 受 男性 、 女 性 喜爱 的 电影 Top10。 
(1) 在 12.11.1 节 Movie Users_Analyzer_DateSet.scala 代码 中 已 经 定义 了 用 户 、 评 分 、 电 
影 case class 类 。 


:5 


本 


Se 


case class User (UserID:String, Gender:String, Age:String, OccupationID: 
String, Zip Code:String) 

case class Rating (UserID:String, MovieID:String, Rating:Double, Timestamp: 
String) 

case class Movie (MovieID:String, Title:String, Genres:String) 


(2) 将 评分 数据 集 ratingsDataSet 和 用 户 数据 集 usersDataSet 根据 用 户 ID 关联 ， 生 成 
genderRatingsDataSet 以 后 ， 这 里 的 genderRatingsDataSet 其 实 是 DataFrame， 可 以 使 用 as 转 
换 为 DataSet 。 然 后 再 分 别 过 滤 出 男性 、 女 性 的 数据 maleFilteredRatingsDataSet 、 
femaleFilteredRatingsDataSet， 然 后 查询 出 电影 ID、 评 分 两 列 数据 ， 代 码 如 下 。 


3 
这 汉 


人 


4. 


5. 


6: 


了 全 


val genderRatingsDataFrame = ratingsDataFrame.join(usersDataFrame, 
"UserID") .cache () 

val genderRatingsDataSet = ratingsDataSet.join(usersDataSet，"UserID") . 
cache () 

val maleFilteredRatingsDataFrame = genderRatingsDataFrame.filter 
("Gender= 'M'") .select ("MovieID", "Rating") 

val maleFilteredRatingsDataSet = genderRatingsDataSet.filter("Gender= 
'M'") .select ("MovieID", "Rating") 

val femaleFilteredRatingsDataFrame = genderRatingsDataFrame.filter 
("Gender= 'F'") .select ("MovieID", "Rating") 

val femaleFilteredRatingsDataSet = genderRatingsDataSet.filter ("Gender= 
'F'") .select ("MovieID", "Rating") 


(3) 将 过 滤 后 的 男性 、 女 性 评分 数据 集 maleFilteredRatingsDataSet 、femaleFiltered 
RatingsDataSet， 根 据 电影 ID 进行 分 组 ， 使 用 avg 算 子 计算 评分 平均 分 ， 然 后 按 平 均 分 降序 
排列 。 纯 粹 通过 DataSet 的 方式 实现 所 有 电影 中 最 受 男性 、 女 性 喜爱 的 电影 Top10， 代 码 如 下 。 


Yi 


“466。 


Println(" 纯粹 通过 Dataset 的 方式 实现 所 有 电影 中 最 受 男 性 喜爱 的 电影 


Topl0:")maleFiltered RatingsDataSet.groupBy ("MovieID") .avg ("Rating") .orderBy 
($"avg (Rating)".desc) .show (10) 


println ("纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 最 受 女 性 喜爱 的 电影 Top10:") female 
Filtered RatingsDataSet.groupBy ("MovieID") .avg ("Rating"). orderBy($ 


"avg (Rating)". desc, $"MovieID".desc) .show(10) 
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在 IDEA 中 运行 代码 ， 纯 粹 通过 DataSet 的 方式 实现 所 有 电影 中 最 受 男性 、 女 性 喜爱 的 
电影 Top10， 输 出 结果 如 下 。 


co waw 必 wm 


ke 


上 上 FF 
oamwmcewnhPhoD' 


N 
=] 


2 


纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10: 


二 Me + 








IMovieID|avg (Rating) 
和 汪 人 i + 
| 985 5 人 0 
| 439 5.0 
| 3233 5<0 
| 130 5 
| 3172 本位 
| 3280 5.0 
| 989 5.0 
| A SS 
| 3656 5 
| 3517 5.0 
。 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 : 


. only showing top 10 rows 


.纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 最 受 女性 喜爱 的 电影 Top10: 


了 于 十 
。|1MovieIDlavg(Rating) | 





| 
| 
| 
| 
| 53 
| 
| 
| 
| 
| 


mmmwmwmwmwmwmnw ou 
= 下 = 下 一 册 一 古 一 丰 一 下 一 骨 一 下 一 呈 一 | 


.+------- + 一 一 一 一 一 一 一 一 一 一 十 
. only showing top 10 rows 


12.11.5 ”纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核心 目标 


本 节 我 们 纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核心 目标 用 户 最 喜爱 电 


用 户 最 喜爱 电影 TopN 分 析 


影 TopN 分 析 。 
(1) 在 12.11.1 节 Movie Users_Analyzer DateSet.scala 代码 中 已 经 定义 了 用 户 、 评 分 、 电 
影 case class 类 。 


15 


2 


3 


case class User (UserID:String, Gender:String, Age:String, OccupationID: 
String, Zip Code:String) 

case class Rating (UserID:String, MovieID:String, Rating:Double, 
Timestamp:String) 

case class Movie (MovieID:String, Title:String, Genres:String) 


(2) 将 评分 数据 ratingsDataFrame 转化 为 ratingsDataSet， 电 影 数 据 moviesDataFrame 转 
化 为 moviesDataSet， 用 户 数据 usersDataFrame 转换 为 usersDataSet。 
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人 


val schemaforusers = StructType ("UserID: :Gendqder::RAge::OccupationID:: 
Zip’ Code". split(":e"). 

map (column => StructField(column, StringType, true))) 

// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
val usersRDDRows = usersRDD.map( .split("::")) .map(line => Row(line 
(0) .trim,line(1). 

trim,line(2) .trim,line(3) .trim,line(4) .trim)) 

// 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 
val usersDataFrame: DataFrame = spark.createDataFrame (usersRDDRows, 
schemaforusers) // 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 

//DataFrame， 这 时 RDD 就 有 了 元 数据 信息 的 描述 


val usersDataSet = usersDataFrame.as[User] 


val ratingsRDDRows=ratingsRDD.map( .split("::")) .map(line=>Row (line 
(0) .trim, line(1). 

trim,line(2) .trim.toDouble, line (3) .trim)) 
val ratingsDataFrame = spark.createDataFrame (ratingsRDDRows, s 
chemaforratings) 
val ratingsDataSet = ratingsDataFrame.as[Rating] 


val schemaformovies = StructType ("MovieID: :Title: :Genres".split("::") . 
map(column => StructField(column, StringType, true))) 

// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
Val moviesRDDRows = moviesRDD.map(_.split("::")) .map(line => Row(line 
(0) .trim,line(1). 

trim, line (2) .trim) ) // 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 
val moviesDataFrame = spark.createDataFrame (moviesRDDRows, schemaformovies) 
// 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 DataFrame， 这 时 RDD 就 有 了 
// 元 数据 信息 的 描述 


val moviesDataSet = moviesDataFrame .as [Movie] 


(3) 将 评分 ratingsDataSet 和 用 户 usersDataSet 进行 关联 ， 过 滤 年 龄 为 18 岁 年 龄 段 的 用 


户 ， 根 据 


影 ID 进行 分 组 ， 统 计 观看 次 数 ， 然 后 再 根据 电影 ID 和 电影 moviesDataSet 进行 


关联 ， 查 询 电影 名 、 观 看 次 数 两 列 数据 ， 并 且 按 观 看 次 数 降 序 排列 ， 纯 粹 通过 DataSet 的 方 
式 实 现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 ， 代 码 如 下 。 


1 


3 


println ("纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 
TopN 分 析 :") 


ratingsDataSet .join(usersDataSet, "UserID").filter("Age = '18'"). 
groupBy ("MovieID"). 
count () .join (moviesDataSet, "MovieID") .select("Title", "count") . 
sort($"count".desc) .show(10) 


在 IDEA 中 运行 代码 ， 纯 粹 通过 DataSet 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 














oawm 必 wmNP 
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| Matrix, The (1999) 


1 
1 
1Star Wars: Episod...| 5791 
1 
1Star Wars: Episod...| 


j 户 最 喜爱 电影 TopN 分 析 ， 输 出 结果 如 下 。 
纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 : 


一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 十 

Title lcount| 

十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 十 
IAmerican Beauty (... | 
1Star Wars: Episod...| 5861 
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10. 
1 
2 
135 
14. 
5s 
16. 


1Braveheart (1995) | 5441 
lSaving Private Ry...| 5431 
lIJurassic Park (1993)| 5411 
1Terminator 2: Jud...| 529| 
| Men in Black (1997)| 5141 
二 二 二 十 
only showing top 10 rows 


12.11.6 ”纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜 


爱 电影 TopN 分 析 


本 节 我 们 纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 


分 析 。 


(1) 在 12.11.1 节 Movie Users_Analyzer DateSet.scala 代码 中 已 经 定义 了 用 户 、 评 分 、 电 


影 case class 类 。 


天 


Se 


case class User (UserID:String, Gender:String, Age:String, OccupationID: 
String, Zip Code:String) 

case class Rating (UserID:String, MovieID:String, Rating:Double, 
Timestamp:String) 

case class Movie (MovieID:String, Title:String, Genres:String) 


(2) 将 评分 数据 ratingsDataFrame 转化 为 ratingsDataSet， 电 影 数据 moviesDataFrame 转 
化 为 moviesDataSet， 用 户 数据 usersDataFrame 转换 为 usersDataSet。 


: 夺 
这 二 


4. 


val schemaforusers = StructType ("UserID: :Gender: :Age: :OccupationID:: 
Zip Code”" spilt ("ss 

map(column => StructField(column, StringType, true))) 

// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
val usersRDDRows = usersRDD.map( .split("::")) .map(line => Row(line 
(0) .trim, line(1). 

trim,line(2) .trim,line(3) .trim,line(4) .trim)) 

// 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 
val usersDataFrame: DataFrame = spark.createDataFrame (usersRDDRows, 
schemaforusers) // 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 

//DataFrame， 这 时 RDD 就 有 了 元 数据 信息 的 描述 
val usersDataSet = usersDataFrame.as[User] 
val ratingsRDDRows=ratingsRDD.map( .split("::")) .map(line=>Row (line 
(0) .trim, line (1). 

trim,line(2) .trim.toDouble, line(3) .trim)) 
val ratingsDataFrame = spark.createDataFrame (ratingsRDDRows, schemaforratings) 
val ratingsDataSet = ratingsDataFrame.as[Rating] 

Ss ele = StructType ("MovieID::Title: :Genres".split("::"). 
map(column => StructField(column, StringType, true))) 

// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
val moviesRDDRows = moviesRDD.map( .split("::")) .map(line => Row(line 
(0) .trim,line(1). 

trim, line (2) -trim) ) // 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 
val moviesDataFrame = spark.createDataFrame (moviesRDDRows, schemaformovies) 
// 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 DataFrame， 这 时 RDD 就 有 了 
// 元 数据 信息 的 描述 
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19. val moviesDataSet = moviesDataFrame.as[Movie] 

(3) 将 评分 ratingsDataSet 和 用 户 usersDataSet 进行 关联 ， 过 滤 年 龄 为 25 岁 年 龄 段 的 用 
户 ， 根 据 电 影 ID 进行 分 组 ， 统 计 观 看 次 数 ， 然 后 再 根据 电影 ID 和 电影 moviesDataSet 进行 
关联 ， 查 询 电影 名 、 观 看 次 数 两 列 数据 ， 并 且 按 观看 次 数 降序 排列 ， 纯 粹 通过 DataSet 的 方 
式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 ， 代 码 如 下 。 

1. println (" 纯 粹 通过 DataSet 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 : ") 


ratingsDataSet.join(usersDataSet， "UserID") .filter("RAge = '25°'"). 
groupBy ("MovieID"). 
< count () .join (moviesDataSet, "MovieID") .select ("Title", "count") . 


sort($"count".desc) .limit (10) .show() 


在 IDEA 中 运行 代码 ， 纯 粹 通过 DataSet 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜 
爱 电 影 TopN 分 析 ， 输 出 结果 如 下 。 


纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 : 








1 

2. +------------------- 一 9 人 
3: |Title count| 
4 。 +------ 一 一- 一- 一 一- 一 一 一 一 一 一 并 一 一 一 一 ad 
5. |American Beauty (...| 13341 
6. 1Star Wars: Episod...| 11761 
7. 1Star Wars: Episod...| 11341 
8. 1Star Wars: Episod...| 11281 
9. ITerminator 2: Jud...| 10871 
10. 1Silence of the La...| 10671 
11. | Matrix, The (1999)| 10491 
12. lSaving Private Ry...| 10171 
13. lBack to the Futur...| 10011 
14. lJurassic Park (1993)| 1000| 
15. +--------- 一 -一 一 -一 一 一 一 一 一 并 二 三 = 二 一 十 


12.12 ”大 数据 电影 点 评 系统 应 用 案例 涉及 的 核心 知识 点 原 
理 、 源 码 及 案例 代码 


本 节 大 数据 电影 点 评 系统 应 用 案例 涉及 的 核心 知识 点 主要 包括 以 下 几 方 面 。 
口 知识 点 : Broadcast。 
口 知识 点 : SQL 全 局 临时 视图 及 临时 视图 。 


12.12.1 知识 点 : 广播 变量 Broadcast 内 幕 机 制 


在 12.4 节 中 ， 我 们 通过 RDD 分 析 电 影 点 评 系统 仿 QQ 和 微 信 等 用 户 群 分 析 中 用 到 了 广 
播 变量 Broadcast。 下 面 讲 解 一 下 广播 变量 Broadcast 内 幕 机 制 的 知识 点 。 

广播 变量 就 是 一 个 用 来 广播 的 变量 ， 人 允许 Spark 应 用 程序 获取 一 个 只 读 的 变量 ， 只 读 的 
广播 变量 缓存 到 每 个 分 布 式 节点 上 ， 而 不 是 给 每 个 任务 传送 它 的 一 份 数据 副本 。Spark 以 高 
效 的 方式 给 每 个 节点 复制 一 个 大 的 输入 数据 集 ， 使 用 高 效 广播 算法 来 分 发 广播 变量 ， 从 而 减 
少 网 络 通信 成 本 。 
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广播 变量 是 由 一 个 变量 v 通过 调用 [org.apache.spark.SparkContext#broadcast] 创 建 的 。 广 
播 变量 将 v 封装 起 来 。 广 播 变量 的 值 可 以 通过 value 方法 来 获取 ， 例 如 : 

da scala> val broadcastVar = sc.broadcast (Array(1l, 2, 3)) 
broadcastVar: org.apache.spark.broadcast .Broadcast [Array[Int]] = Broadcast (0) 


scala> broadcastVar.value 
res0: Array[Int] = Array(1l, 2, 3) 


站 

a 

4 

是 

在 实际 的 企业 级 开发 项 目 中 ， 基 本 上 稍微 复杂 一 点 的 项 目 ， 就 一 定 会 用 到 Broadcast 广 
播 变量 和 Accumulator 计数 器 。Broadcast 广播 变量 和 Accumulator 计数 器 是 和 RDD 并 列 的 三 
大 基础 数据 结构 。Broadcast 广播 变量 和 Accumulator 计数 器 是 全 局 级 别 的 。 从 Spark 数据 结 
构 的 角度 分 析 ，RDD 是 分 布 式 私有 数据 结构 ，Broadcast 广播 变量 是 分 布 式 全 局 只 读数 据 结 
构 ，Accumulator 计数 器 是 分 布 式 全 局 只 写 的 数据 结构 。 

下 面 通过 图 12-12 说 明 Broadcast 的 工作 机 制 。Spark Driver 中 有 一 个 变量 number， 在 
Executor 中 有 4 个 Task, 如 没有 使 用 广播 变量 , Driver 需 给 Executor 的 4 个 Task 都 发 送 一 个 
变量 number 数据 副本 ， 需 发 送 4 次 ， 这 是 对 网 络 传输 和 内 存 消 耗 的 极 大 浪费 ， 如 果 变 量 比 
较 大 ， 则 Executor 内 存 占 用 大 ， 极 易 出 现 OOM。 如 果 使 用 广播 变量 ，Driver 发 送 广播 变量 
到 Executor 的 内 存 中 ， 只 有 1 份 广播 变量 number 数据 副本 ， 只 要 发 送 1 次 ，4 个 Task 任务 
就 可 以 共享 唯一 的 一 份 广播 变量 ， 极 大 地 减少 了 网 络 传输 和 内 存 消 耗 。 


Executor 










网 络 传输 僵 























Broadcast 到 A 
Executor 的 内 存 中 ~、 共享 唯一 的 一 份 广播 变 
人 | 量 ， 家 大 地 沽 水 了 网 络 传 


上 
number 








图 12-12 ”了 Broadcast 的 工作 机 制图 


现在 我 们 深入 思考 Spark Broadcast 的 运行 机 制 ，Broadcast 广播 变量 内 幕 解 密 如 下 。 

(1) Broadcast 就 是 将 数据 从 一 个 节点 发 送 到 其 他 节点 上 。 例 如 ，Driver 上 有 一 张 表 ， 而 
Executor 中 的 每 个 并 行 执行 的 Task (100 万 个 Task) 都 要 查询 这 张 表 ， 那 我 们 通过 Broadcast 
的 方式 往 每 个 Executor 把 这 张 表 发 送 一 次 就 行 了 , Executor 中 的 每 个 运行 的 Task 查询 这 张 唯 
一 的 表 ， 而 不 是 每 次 执行 的 时 候 都 从 Driver 获得 这 张 表 。 
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(2) 这 就 好 像 ServletContext 的 具体 作用 ， 只 是 Broadcast 是 分 布 式 的 共享 数据 ， 默 认 情 
况 下 , 只 要 程序 在 运行 , Broadcast 变量 就 会 存在 , 因为 Broadcast 在 底层 是 通过 BlockManager 
管理 的 ! 但 是 你 可 以 手动 指定 或 者 配置 具体 周期 来 销毁 Broadcast 变量 ! 

(3) Broadcast 一 般 用 于 处 理 共 享 配置 文件 、 通 用 的 Dataset、 常 用 的 数据 结构 等 ， 但 是 
在 Broadcast 中 ， 不 适合 存放 太 大 的 数据 ，Broadcast 不 会 内 存 溢出 ， 因 为 其 数据 保存 的 
StorageLevel 是 MEMORY AND_DISK 的 方式 ; 虽然 如 此 ， 我 们 也 不 可 以 放 入 太 大 的 数据 在 
Broadcast 中 ， 因 为 网 络 WO 和 可 能 的 单 点 压力 会 非常 大 ! 

(4) 广播 Broadcast 变量 是 只 读 变量 ， 最 为 轻松 保持 了 数据 的 一 致 性 ! 

(5) Broadcast 的 使 用 : 

















scala> val broadcastVar = sc.broadcast (Array(1，2，3)) 
broadcastVar: org.apache.spark.broadcast .Broadcast [Array[Int]] = Broadcast (0) 


scala> broadcastVar.value 
res0: Array[Int] = Array(l1, 2, 3) 

(6) HttpBroadcast 方式 的 Broadcast, 最 开始 的 时 候 , 数据 放 在 Driver 的 本 地 文件 系统 中 ， 
Driver 在 本 地 会 创建 一 个 文件 夹 来 存放 Broadcast 中 的 data, 然后 启动 HttpServer 访问 文件 夹 
中 的 数据 , 同时 写 入 到 BlockManager( StorageLevel 是 MEMORY_AND _DISK ) 中 获得 BlockId 
(BroadcastBlockId)， 当 第 一 次 Executor 中 的 Task 要 访问 Broadcast 变量 的 时 候 ， 会 向 Driver 
通过 HttpServer 访问 数据 ， 然 后 会 在 Executor 中 的 BlockManager 中 注册 该 Broadcast 中 的 数 
据 BlockManager， 这 样 ， 之 后 需要 的 Task 需要 访问 Broadcast 的 变量 的 时 候 会 首先 查询 
BlockManager 中 有 没有 该 数据 ， 如 果 有 ， 就 直接 使 用 。 

(7) BroadcastManager 是 用 来 管理 Broadcast 的 ， 该 实例 对 象 是 在 SparkContext 创建 
SparkEnv 的 时 候 创建 的 。 

Spark 1.6.0 版 本 的 BroadcastManager.scala 的 源码 如 下 。 


wm 必 wN 


// 使 用 广播 变量 前 ， 被 SparkContext 或 者 Executor 调用 

2 private def initialize() { 

< synchronized { 

a if (!initialized) { 

5 Val broadcastFactoryClass = 

6 conf .get ("spark.broadcast.factory", "org.apache.spark.broadcast. 
TorrentBroadcastFactory") 

ye 

8. broadcastFactory = 

9 Utils.classForName (broadcastFactoryClass) .newInstance. 

asInstanceOf [BroadcastFactory] 

10. 

1 // 初 始 化 相应 的 BroadcastFactory 和 BroadcastObject 

le broadcastFactory.initialize(isDriver, conf, securityManager) 

3 

14 . initialized = true 

Ds } 

16. 人 

a } 


Spark 2.2.0 版 本 的 BroadcastManagerscala 的 源码 与 Spark 1.6.0 版 本 相 比 具有 如 下 
特点 : Spark 2.2.0 版 本 的 BroadcastFactory 仅 提供 TorrentBroadcastFactory 实现 方式 。 
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private def initialize() { 
synchronized { 
if (!initialized) { 
broadcastFactory = new TorrentBroadcastFactory 
broadcastFactory.initialize (isDriver, conf, securityManager) 
initialized = true 
| 
下 


实例 化 BroadcastManager 时 会 创建 BroadcastFactory 工厂 来 构建 具体 的 Broadcast 类 型 ， 
默认 情况 下 是 TorrentBroadcastFactory。 

(8) HttpBroadcast 存在 单 点 故障 和 网 络 IO 性 能 问题 ， 所 以 默认 使 用 TorrentBroadcast 
的 方式 ， 开 始 数据 在 Driver 中 ， 假 设 A 节点 用 了 数据 ，B 访问 的 时 候 A 节点 就 变 成 数据 源 ， 
依 此 类 推 ， 都 是 数据 源 ， 当 然 是 被 BlockManger 进行 管理 的 ， 数 据 源 越 多 ， 节 点 压力 会 大 大 
降低 。 

(9) TorrentBroadcast 按照 BLOCK _ SIZE (默认 是 4MB ) 将 Broadcast 中 的 数据 划分 成 为 
风 的 Block， 然 后 将 分 块 信息 〈 也 就 是 meta 信息 ) 存放 到 Driver 的 BlockManager 中 ， 同 

会 告诉 BlockManagerMaster， 说 明 Meta 信息 存放 完毕 。 


oawm 必 ww 





12.12.2 ”知识 点 ;SQL 全 局 临时 视图 及 临时 视图 


在 12.6 节 中 ， 我 们 通过 Spark SQL 中 的 SQL 语句 实现 电影 点 评 系统 用 户 行为 分 析 ， 其 
中 使 用 到 Spark SQL 的 全 局 临时 视图 及 临时 视图 。 下 面 讲解 一 下 Spark SQL 的 全 局 临时 视图 
及 临时 视图 。 

Spark SQL 中 的 临时 视图 (Temporary views) 是 会 话 范围 的 ， 如 果 创 建 它 的 会 话 终止 ， 
临时 视图 将 消失 。 如 果 需 建立 在 所 有 会 话 之 间 共 享 的 临时 视图 ， 并 保持 活动 状态 ,直到 Spark 
应 用 程序 终止 ， 那 么 可 以 创建 一 个 全 局 临时 视图 (Global Temporary View) 。 全 局 临时 视图 
绑 定 到 Spark 系统 保留 的 数据 库 global_temp, 我 们 必须 使 用 限定 名 称 来 引用 它 , 例 如 SELECT 
* FROM global temp.view1l。 

全 局 临时 视图 的 代码 例子 如 下 。 


// 使 用 全 局 临时 视图 注册 DataFrame 
df.createGlobalTempView ("people") 


1 

学 

号 

4. // 全 局 临时 视图 绑 定 到 Spark 系统 保留 的 数据 库 global temp 

5 Spark: a * FROM global temp.people") .show() 
6 
8 


Wop] a oe 
0 
9. // lnulllMichaell 
10. // 1 301 Andyl 
XI L900 gastinl 
12. // +----+------— + 


14. // 全 局 临时 视图 是 会 话 共享 的 
15. spark.newSession() .sql ("SELECT * FROM global temp.people") .show() 


16"/Y +====4======= 十 
17. // | agel namel 
kN ed a 全 下 + 


19. // Inul11Michaell 
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20 777 30) Andy | 
2 7/ 19 Oustinl 


打开 Dataset.scala 框架 源码 ， 看 一 下 创建 全 局 临时 视图 createGlobalTempView 方法 ， 从 
源码 中 可 以 看 到 ， 这 里 Spark createGlobalTempView 源码 注释 时 出 现 了 一 个 小 错误 ， 我 们 在 
创建 createGlobalTempView 的 时 候 ，DB 的 名 称 实际 为 global temp， 而 在 源码 注释 中 写成 了 
_global_ temp， 如 果 在 自己 编写 的 业务 代码 中 使 用 _global temp 限定 词 ， 编 译 时 会 报错 ， 提 示 
找 不 到 表 _ global temp。 

1 

* ”使 用 限定 名 称 创建 全 局 临时 视图 。 全 局 临时 视图 的 生命 周期 与 Spark 应 用 程序 绑 定 。 全 
* 局 临时 视图 是 跨 会 话 的 ， 全 局 临时 视图 的 生命 周期 等 同 于 Spark 应 用 程序 的 生命 周期 ， 当 
* Spark 应 用 程序 终止 ， 全 局 临时 视图 会 自动 被 终止 。 全 局 临时 生命 周期 绑 定 于 系统 保留 数 
* 据 库 _global temp， 我 们 必须 使 用 限定 名 称 指向 全 局 临时 视图 





3 六 

3 * View, e.g. ‘SELECT * FROM global temp.viewl.. 

4. 米 

5 * @throws AnalysisException if the view name already exists 
Se 六 

全 * @group basic 

8. * @since 2.1.0 

9. */ 


DE @throws [AnalysisException] 

了 二 def createGlobalTempView (viewName: String) : Unit = withPlan { 
le createTempViewCommand (viewName, replace = false, global = true) 
Sh 


打开 Dataset.scala 框架 源码 ， 看 一 下 创建 临时 视图 createTempView 方法 ， 从 源码 中 可 以 


使 用 给 定名 称 创建 本 地 临时 视图 , 本 地 临时 视图 的 生命 周期 是 和 [sparksession] Spark 

会 话 绑 定 在 一 起 的 ，sparksession 用 于 创建 Dataset 数据 集 。 本 地 临时 视图 是 会 话 作 
用 域 范围 的 ， 本 地 临时 视图 的 生命 周期 等 同 于 会 话 的 生命 周期 ， 会 话 创建 本 地 临时 视图 ， 
当 会 话 终止 时 ， 本 地 临时 视图 会 自动 被 删除 。 本 地 临时 视图 不 与 任何 数据 库 绑 定 ， 即 我 们 
不 能 用 dbl .viewl 引用 本 地 临时 视图 


@throws AnalysisException if the view name already exists 


Q@group basic 
@since 2.0.0 


@throws [AnalysisException] 
def createTempView (viewName: String): Unit = withPlan { 
createTempViewCommand (viewName, replace = false, global = false) 


PpOWoO ~awm 必 wmwN 


0 
有 } 
12.12.3 ”大 数据 电影 点 评 系统 应 用 案例 完整 代码 


1. RDD 方 式 案例 代码 


Spark 商业 案例 之 大 数据 电影 点 评 系 统 应 用 案例 代码 Movie_Users_Analyzer RDD.scala 
如 例 12-3 所 示 。 
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【 例 12-3】Movie Users_ Analyzer RDD.scala 代码 。 


co vawm 必 wm 


package com.dt.spark.cores 
import org.apache.spark.{SparkConf, SparkContext} 
import scala.collection.immutable.HashSet 
import org.apache.1o0g4j.{Level, Logger} 
/** 


* 版 权 : DT 大 数据 梦 工 厂 所 有 
* 时 间 : 2017 年 1 月 1 日 ; 
* 电影 点 评 系统 用 户 行为 分 析 : 用 户 观看 电影 和 点 评 电影 的 所 有 行为 数据 的 采集 、 过 滤 、 处 理 
* 和 展示 : 
* ”数据 采集 : 企业 中 一 般 越 来 越 多 地 喜欢 直接 把 server 中 的 数据 发 送 给 Kafka， 因 为 更 加 
* 具备 实时 性 ; 
* ”数据 过 滤 : 趋势 是 直接 在 Server 端 进行 数据 过 滤 和 格式 化 ， 当 然 ， 采 用 Spark SQL 进 
* 行 数据 的 过 滤 也 是 一 种 主要 形式 ; 
* ”数据 处 理 : 
1 .一 个 基本 的 技巧 是 ， 先 使 用 传统 的 SQL 去 实现 一 个 数据 处 理 的 业务 逻辑 〈 自 己 可 以 
手动 模拟 一 些 数据 ) ; 
2 .再 一 次 推荐 使 用 DataSet 去 实现 业务 功能 ， 尤 其 是 统计 分 析 功 能 ; 
3 .如 果 你 想 成 为 专家 级 别 的 顶级 Spark 人 才 ， 请 使 用 RDD 实现 业务 功能 ， 为 什么 ? 运 
行 的 时 候 是 基于 RDD 的 ! 


数据 : 强烈 建议 大 家 使 用 Parquet 

1."ratings.dat": UserID: :MovieID::Rating::Timestamp 
2."users.dat": UserID: :Gender::Rge::OccupationID::2Zip-code 
3."movies.dat": MovieID::Title::Genres 

4."occupations .dat": OccupationID: :OccupationName ”一般 情况 下 都 会 以 
程序 中 数据 结构 Haskset 的 方式 存在 ， 是 为 了 做 mapjoin 

*/ 


闫 美美 美美 美美 美美 美美 关 


. Object Movie Users Analyzer { 


def main (args: Array[String]){ 
Logger .getLogger ("org") .setLevel (Level .ERROR) 


var masterUrl = "local [4] " // 默 认 程序 运行 在 本 地 Local 人 
var dataPath = "data/moviedata/medium/" // 数 据 存放 的 


/冰冰 
* 当 我 们 把 程序 打包 运行 在 集群 上 时 ， 一 般 都 会 传 入 集群 的 URL 信息 ， 这 里 我 们 假设 如 果 传 入 
* 参数 ， 第 一 个 参数 只 传 入 Spark 集群 的 URL， 第 二 个 参数 传 入 的 是 数据 的 地 址 信息 ; 
*/ 


if(args.length > 0) { 
masterUrl = args (0) 

} else if (args.length > 1) { 
dataPath = args (1) 

1 


/** 
* 创建 Spark 集群 上 下 文 sc， 在 sc 中 可 以 进行 各 种 依赖 和 参数 的 设置 等 ， 大 家 可 以 通 
* 过 SparkSubmit 脚本 的 help 去 看 设置 信息 
下 


val sc = new SparkContext (new SparkConf () .setMaster (masterUTr1) . 
setAppName ("Movie Users Analyzer") ) 


.475 。 


中 篇 “商业 案例 








.476 


7 


0 
7 


/** 


* 读 取 数 据 ， 用 什么 方式 读 取 数 据 呢 ? 这 里 使 用 的 是 RDD! 
*/ 


val usersRDD = sc.textFile(dataPath + "users.dat") 
val moviesRDD = sc.textFile(dataPath + "movies.dat") 
val occupationsRDD = sc.textFile(dataPath + "occupations.dat") 
val ratingsRDD = sc.textFile(dataPath + "ratings.dat") 
val ratingsRDD = sc.textFile("data/moviedata/large/" + "ratings.dat") 


/** 
* 电影 点 评 系统 用 户 行为 分 析 之 一 : 分 析 有 具体 某 部 电影 观看 的 用 户 信息 ， 如 电影 ID 为 
* 1193 的 用 户 信息 〈 用 户 的 ID、Rge、Gender、Occupation) 
汪 丰 


val usersBasic = usersRDD.map( .split("::")) .map{user => (//UserID:: 
Gender: :Age: :OccupationID 

user (3), 

(user (0) ,user (1) ,user (2)) 

) 
} 
val occupations = occupationsRDD.map( .split("::")).map(job => (job 
(0), job(1))) 


val userInformation = usersBasic.join(occupations) 
userInformation.cache () 


for (elem <- userInformation.collect()) { 
println (elem) 


} 


val targetMovie = ratingsRDD.map( .split("::")) .map(x=> (x(0), x(1))). 
filter( . 2.equals("1193")) 

//(11, ((4882,M,45), lawyer)) 

val targetUsers = userInformation.map(x => (x. 2. 1. 1, x. 2)) 


val userInformationForSpecificMovie = targetMovie.join (targetUsers) 
for (elem <- userInformationForSpecificMovie.collect()) { 
println (elem) 


}: 


/** 
* 电影 流行 度 分 析 : 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 及 观看 人 数 最 多 的 电影 
* (流行 度 最 高 ) 
* "ratings.dat": UserID: :MovieID::Rating::Timestamp 
* 得 分 最 高 的 Top10 电影 实现 思路 : 如 果 想 算 总 的 评分 ， 一 般 需 要 reduceByKey 操作 
* 或 者 aggregateByKey 操作 
* ”第 一 步 : 把 数据 变 成 Key-Value， 大 家 想 一 下 在 这 里 什么 是 Key， 什 么 是 Value。 
* 把 MovieID 设置 为 Key， 把 Rating 设置 为 Value; 

第 二 步 : 通过 reduceByKey 操作 或 者 aggregateByKey 实现 聚合 ， 然 后 呢 ? 

第 三 步 : 排序 ， 如 何 做 ? 进行 Key 和 Value 的 交换 


注意 : 
1. 转换 数据 格式 时 一 般 都 会 使 用 map 操作 ， 有 时 转换 可 能 特别 复杂 ， 需 要 在 map 方 
* 法 中 调用 第 三 方 jar 或 者 so 库 ; 


剖 
六 
3 
3 
3 
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:了 让 局 
2 
2 
2 
3 


124. 


2 
P265 
2 
TL28. 


2 
130. 
131. 


1325 


束 


2- RDD 从 文件 中 提取 的 数据 成 员 默 认 都 是 String 方式 ， 需 要 根据 实际 转换 格式 ; 
3. RDD 如 果 要 重复 使 用 ， 一 般 都 会 进行 Cache; 
4. RDD 的 Cache 操作 之 后 不 能 直接 用 与 其 他 的 算 子 操作 , 否则 在 一 些 版 本 中 Cache 


* 不 生效 


2 


println ("所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 :") 
val ratings= ratingsRDD.map( .split("::")).map(x => (x(0), x(1), 
x(2))) .cache () // 格 式 化 出 电影 ID 和 评分 


ratings.map(x => (x. 2, (x. 3.toDouble, 1))) // 格 式 化 成 为 Key-Value 
:reduceByKey((x, y) => (x. 1 + y. lx. 2 + y. 2)) 
// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 
-map(x => (XxX. 2. 1.toDouble / x. 2. 2，x- 1)) // 求 出 电影 平均 分 
.SortByKey (false) // 降 序 排列 
.take (10) // 取 Top10 
.foreach (println) // 打 印 到 控制 台 


/** 


* 上 面 的 功能 计算 的 是 口碑 最 好 的 电影 ， 接 下 来 分 析 粉 丝 或 者 观看 人 数 最 多 的 电影 


A 


println ("所 有 电影 中 粉丝 或 者 观看 人 数 最 多 的 电影 :") 
ratings.map(x => (x. 2, 1)).reduceByKey( + ) .map(x => (x. 2, 
x. 1)).sortByKey (false) 

-map(x => (x. 2, x. 1)) .take(10) .foreach (Println) 


* 今日 作业 : 分 析 最 受 男性 喜爱 的 电影 Top10 和 最 受 女性 喜爱 的 电影 Top10 

* 1."users.dat": UserID::Gender::Age::OccupationID::Zip-code 

* 2."ratings.dat": UserID: :MovieID: :Rating::Timestamp 

* 分析: 单 从 ratings 中 无 法 计算 出 最 受 男 性 或 者 女性 喜爱 的 电影 Top10， 因 为 
* 该 RDD 中 没有 Gender 信息 ， 如 果 需 要 使 用 Gender 信息 进行 Gender 的 分 
攻 类 ， 此 时 一 定 需要 聚合 ， 当 然 ， 我 们 力求 聚合 使 用 的 是 mapjoin (分 布 式 计 
算 的 Killer 是 数据 倾斜 ，Mapper 端的 Join 是 一 定 不 会 数据 倾斜 的 ) ， 这 
里 可 否 使 用 mapjoin 呢 ? 不 可 以 ， 因 为 用 户 的 数据 非常 多 ! 所 以 ， 这 里 要 使 
用 正常 的 Join, 此 处 的 场景 不 会 数据 倾斜 , 因为 用 户 一 般 都 很 均匀 地 分 布 ( 但 
是 ， 系 统 信息 搜集 端 要 注意 黑客 攻击 ) 

* Tips: 

* ”1 .因为 要 再 次 使 用 电影 数据 的 RDD, 所 以 复 用 了 前 面 Cache 的 ratings 数据 
* “2. 在 根据 性 别 过 滤 出 数据 后 ， 关 于 TopN 部 分 的 代码 直接 复 用 前 面 的 代码 就 行 了 。 
* ”3。. 要 进行 Join 的话， 需要 key-value; 

* ”4. 在 进行 Join 的 时 候 通过 take 等 方法 注意 Join 后 的 数据 格式 ， 例 如 

.SL (3L9 530545) BY) 

* ”5. 使 用 数据 元 余 来 实现 代码 复 用 或 者 更 高 效 地 运行 ， 这 是 企业 级 项 目的 一 个 非 
* ” 常 重要 的 技巧 ! 





Val genderRatings = ratings.map(x => (x. 1, (x. 1, x. 2, 
x. 3))).join( 
usersRDD.map( .split("::")) .map(x => (x(0), x(1)))).cache() 
genderRatings.take(10) .foreach (Println) 
val maleFilteredRatings = genderRatings.filter(x => 
Xx. 2 22:equals("M")) .map(x => x 2. 1) 
val femaleFilteredRatings = genderRatings.filter(x => x. 2. 2. 
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equals("F")) .map(x => x. 2- 1) 


* (855,5.0) 
* (6075,5.0) 
* (1166,5.0) 
* (3641,5.0) 
* (1045,5.0) 
* (4136,5.0) 
* (2538,5.0) 
(227 oO 
* (8484,5.0) 
* (5599,5.0) 


println ("所 有 电影 中 最 受 男性 喜爱 的 电影 Top10:") 
maleFilteredRatings.map(x => (x. 2, (x. 3.toDouble, 1))) 
// 格 式 化 成 为 Key-Value 2 
.reduceByKey((x, y) => (x. Le CA 
// 对 Value 进行 reduce 操作 ， 分 别 得 由 条 影 的 总 的 评分 和 总 的 点 评 人 数 
-map(x => (x. 2. 1.toDouble / x. 2. 2，x- 1)) // 求 出 电影 平均 分 
.sortByKey (false) // 降 序 排列 
-map(ln => {xn 20 x I 
.take (10) // 取 Top10 
.foreach (println) // 打 印 到 控制 台 


人 全 全 二 全 
> (057530 
* (3215375:0) 
* (4763,5.0) 
* (26246,5.0) 
33275.0 
.S03 50 
(492575=.0) 
* (8767,5.0) 
(44657,5.0) 


println ("所 有 电影 中 最 受 女性 喜爱 的 电影 Top10:") 
femaleFilteredRatings.map(x => (x. 2, (x. 3.toDouble, 1))) 
// 格 式 化 成 为 Key-Value 的 形式 
.reduceByKey ((x, y) => (x. 1 + 
// 对 Value 进行 reduce 操作 ， 分 别 得 时 用 部 外 也 的 让 的 这 分 和 总 的 点 评 人 数 
-maplz => 2 1.toDouble / za 22 XxX- 1)) 7/ 求 出 电影 平均 分 
.SortByKey (false) // 降 序 排列 
mal(s => (re Zr EL) 
.take (10) // 取 Top10 
.foreach (println) // 打 印 到 控制 台 


/** 
* 最 受 不 同年 龄 段 人 员 欢 迎 的 电影 TopN 
* "users.dat": UserID: :Gender::RAge::OccupationID::2Zip-code 
* 思路 : 首先 还 是 计算 TopN， 但 是 这 里 的 关注 点 有 两 个 : 
* ”1. 不 同年 龄 阶段 如 何 界定 ， 这 个 问题 其 实 是 业务 的 问题 ， 当 然 ， 实 现时 可 以 使 
用 RDD 的 filter， 例 如 13 < age <18， 这 样 做 会 导致 运行 时 进行 大 量 的 
计算 ， 因 为 要 进行 扫描 ， 所 以 会 非常 耗 性 能 。 所 以 ， 一 般 情 况 下 ， 我 们 都 是 在 
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原始 数据 中 直接 对 要 进行 分 组 的 年 龄 段 提 前 进行 好 ETL， 例 如 ， 进 行 ETL 后 
产生 以 下 数据 : 
— Gender is denoted by a "M" for male and "“F" for female 
- Age is chosen from the following ranges: 
1: "Under 18” 
"18=24™ 
"25-34" 
"35-44" 
"45-49"™ 
"50=55™ 
Ee 
2. 性 能 问题 : 
第 一 点 : 实现 时 可 以 使 用 RDD 的 filter,， 如 13 < age <18， 这 样 做 会 导 
致 运行 时 候 进 行 大 量 的 计算 ， 因 为 要 进行 扫描 ， 所 以 会 非常 耗 性 能 ， 我 们 通过 
提前 的 ETL 把 计算 发 生 在 Spark 业务 逻辑 运行 以 前 ， 用 空间 换 时 间 ， 当 然 这 
些 实现 也 可 以 使 用 Hive, 因为 Hive 语法 支持 非常 强悍 且 内 置 了 最 多 的 函数 ; 
第 二 点 : 这 里 要 使 用 mapjoin， 原 因 是 targetUsers 数据 只 有 UserID， 
数据 量 一 般 不 会 太 多 





val targetQQUsers = usersRDD.map(_.spPlit("::")).map(x=> (x(0), 
2 Eiler (2 6aLs( oy 

val targetTaobaoUsers = usersRDD.map(_ .split("::")) .map(x => 
(x(0), x(2))).filter( . 2.equals("25")) 


/** 
* 在 Spark 中 如 何 实 现 mapjoin 呢 ， 显然 是 要 借助 于 Broadcast， 把 数据 广播 到 
* Executor 级 别 ， 让 该 Executor 上 的 所 有 任务 共享 该 唯一 的 数据 ， 而 不 是 每 次 
* 运行 Task 的 时 候 ， 都 要 发 送 一 份 数据 的 复制 ， 这 显著 地 降低 了 网 络 数 据 的 传输 
* 和 JVM 内 存 的 消耗 
*/ 
val targetQQUsersSet = HashSet() ++ targetQQUsers.map(_._1). 
collect () 
Val targetTaobaoUsersSet = HashSet () ++ targetTaobaoUsers. 
map( . 1) .collect() 
val targetQQUsersBroadcast = sc.broadcast (targetQQUsersSet) 
Val targetTaobaoUsersBroadcast = sc.broadcast (targetTaobaoUsersSet) 


* QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 
* (Silence of the Lambs, The (1991),524) 
* (Pulp Fiction (1994),513) 
* (Forrest Gump (1994),508) 
* (Jurassic Park (1993),465) 
* (Shawshank Redemption, The (1994),437) 
*/ 
val movieID2Name = moviesRDD.map( .split("::")) .map(x => (x(0), 
x(1))) .collect.toMap 
println ("所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 :") 
ratingsRDD.map( .split("::")) .map(x => (x(0), x(1))) .filter (x => 
targetQQUsersBroadcast .value.contains (x. 1) 
) .map(x => (x. 2, 1)).reduceByKey( + ).map(x => (x. 2, x. 1)). 
sortByKey (false) .map (x => (x. 2, x. 1)) .take(10). 
map(x => (movieID2Name.getOrElse(x. 1, null), x. 2)).foreach 
(println) 3 = 
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taobao 核心 目标 用 户 最 喜爱 电影 TopN 分 析 

(Pulp Fiction (1994) ,959) 

(Silence of the Lambs，The (1991) ,949) 

(Forrest Gump (1994) ,935) 

(Uurassic Park (1993) ,894) 

(Shawshank Redemption，The (1994) ,859 
*/ 

println (" 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 :") 

ratingsRDD.map(_ .split("::")) .map(x => (x(0), x(1))).filter (x => 
targetTaobaoUsersBroadcast .value.contains (x. 1) 

mapi{(s => {x 2 DD) -reduceByKey( + ) map(x => (x. 2 Xe Ls 
sortByKey (false) -map(x => (x. 2, x:. le take (10). 
map(x => (movieID2Name.getOrElse(x. 1, null), x. 2)).foreach 
(println) 


/** 
* 对 电影 评分 数据 进行 二 次 排序 ， 以 Timestamp 和 Rating 两 个 维度 降序 排列 


* "ratings.dat": UserID: :MovieID: :Rating::Timestamp 
来 


* 完成 的 功能 是 最 近 时 间 中 最 新 发 生 的 点 评 信息 
println ("对 电影 评分 数据 以 Timestamp 和 Rating 两 个 维度 进行 二 次 降序 排列 :") 
val pairWithSortkey = ratingsRDD.map (line =>{ 
val splited = line.split("::") 
(new SecondarySortKey( splited(3) .toDouble, splited(2) .toDouble) ,line )}) 


val sorted = pairWithSortkey.sortByKey (false) 


val sortedResult = sorted.map (sortedline => sortedline. 2) 
sortedResult .take (10) .foreach (println) 


while (true) {} // 和 通过 Spark Shell 运行 代码 可 以 一 直 看 到 Web 终端 的 原理 一 
// 样 ， 因 为 Spark Shell 内 部 有 一 个 LOOP 循环 


sc-Stopl) 


class SecondarySortKey(val first:Double,val second:Double) extends 
Ordered [SecondarySortKey] with Serializable { 


def compare (other:SecondarySortKey) :Int = { 
i£f (this.first = other.first !=0) { 
(this.first - other.first) .toInt 
} else { 


if (this.second - other.second > 0){ 
Math.ceil (this.second - other.second) .toInt 
} else if (this.second - other.second < 0){ 


Math.floor (this.second - other.second) .toInt 
} else { 
(this.second - other.second) .toInt 
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2. DateFrame 方 式 案例 代码 


Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 代码 Movie Users Analyzer_ 
DateFrame.scala 如 例 12-4 所 示 。 
【 例 12-4】Movie Users_ Analyzer DateFrame.scala 代码 。 


1. package com.dt.spark.sparksql 


import org.apache.spark.SparkConf 

import org.apache.1o0g4j.{Level, Logger} 

import org.apache.spark.sql.{Row, SparkSession} 

import org.apache.spark.sql.types.{StringType, StructField, StructType, 
DoubleType} 

import scala.collection.immutable.HashSet 


12. /** 

3.  * 版 权 : DT 大 数据 梦 工 厂 所 有 

14. * 时 间 : 2017 年 1 月 11 日 ; 

5. * 电影 点 评 系统 用 户 行为 分 析 : 用 户 观看 电影 和 点 评 电影 的 所 有 行为 数据 的 采集 、 过 滤 、 处 理 





* 和 展示 : 
6. <* 数据 采集 : 企业 中 一 般 越 来 越 多 地 喜欢 直接 把 Server 中 的 数据 发 送 给 Kafka, 因为 更 加 
* ”具备 实时 性 ; 
7. * 数据 过 滤 : 趋势 是 直接 在 Server 端 进行 数据 过 滤 和 格式 化 ， 当 然 ， 采 用 Spark SQL 进 
* ” 行 数据 过 滤 也 是 一 种 主要 形式 ; 
只 到 * ”数据 处 理 : 
9. * 1. 一 个 基本 的 技巧 是 ， 先 使 用 传统 的 SQL 去 实现 一 个 数据 处 理 的 业务 逻辑 〈 自 己 可 以 
站 手动 模拟 一 些 数据 ) ， 
20R 2 .再 次 推荐 使 用 DataSet 去 实现 业务 功能 ， 尤 其 是 统计 分 析 功 能 ; 
2TR > 3. 如 果 你 想 成 为 专家 级 别 的 顶级 Spark 人 才 ， 请 使 用 RDD 实现 业务 功能 ， 为 什么 ? 
运行 的 时 候 是 基于 RDD 的 ! 
2 
23. <* 数据 : 强烈 建议 大 家 使 用 Parquet 
24. * 1."ratings.dat": UserID: :MovieID::Rating::Timestamp 
25. * 2."users.dat": UserID::Gender::Age::OccupationID::Zip-code 
26. * 3."movies.dat": MovieID::Title::Genres 
27. * 4."occupations.dat": OccupationID: :OccupationName ”一般 情况 下 都 会 以 


; 程序 中 数据 结构 Haskset 的 方式 存在 ， 是 为 了 作 mapjoin 


29. object Movie Users Analyzer DateFrame { 
30% def main(args: Array[String]){ 


Se 

号 之 = Logger .getLogger ("org") .setLevel (Level .ERROR) 

33n 

3 var masterUrl = "local[8]”// 默 认 程序 运行 在 本 地 Local 模式 中 ， 主 要 用 于 学 习 和 测试 
全 var dataPath = "data/moviedata/medium/" // 数 据 存放 的 目录 

0 
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/** 
* 当 我 们 把 程序 打包 运行 在 集群 上 的 时 候 ， 一 般 都 会 传 入 集群 的 URI 信息 ， 这 里 我 们 假设 
CS 第 一 个 参数 只 传 入 Spark 集群 的 URL， 第 二 个 参数 传 入 的 是 数据 的 地 
7 再 4 


if(args-length > 0) { 
masterUrl = args (0) 

} else if (args.length > 1) { 
dataPath = args (1) 

} 


/** 
* 创建 Spark 会 话 上 下 文 SparkSession 和 集群 上 下 文 SparkContext, 在 SparkConf 中 可 
* 以 进行 各 种 依赖 和 参数 的 设置 等 ， 大 家 可 以 通过 SparkSubmit 脚本 的 help 去 看 设置 
* 信息 ， 其 中 SparkSession 统一 了 Spark SQL 运行 的 不 同 环境 
区 


val sparkConf = new SparkConf () .setMaster (masterUr1) .setRAppName 
("Movie Users Rnalyzer SparkSQL") 


/** 
* SparkSession 统一 了 Spark SQL 执行 时 的 不 同 的 上 下 文 环境 , 也 就 是 说 , Spark SQL 
* 无 论 运行 在 哪 种 环境 下 , 我们 都 可 以 只 使 用 SparkSession 这 样 一 个 统一 的 编程 入 口 ， 
* 来 处 理 DataFrame 和 DataSet 编程 ， 不 需要 关注 底层 是 否 有 Hive 等 
» 


val spark = SparkSession 
.builder() 
.config(sparkConf) 
.getOrCreate () 


val sc = spark.sparkContext // 从 SparkSession 获得 的 上 下 文 ， 这 是 因为 我 们 
// 读 原生 文件 时 或 者 实现 一 些 Spark SQL 目前 还 不 
// 支 持 的 功能 时 需要 使 用 SparkContext 


/** 
* 读 取 数 据 ， 用 什么 方式 读 取 数 据 呢 ? 这 里 使 用 的 是 RDD! 
*/ 
Val usersRDD = sc.textFile(dataPath + "users.dat") 
val moviesRDD = sc.textFile(dataPath + "movies.dat") 
val occupationsRDD = sc.textFile(dataPath + "occupations.dat") 
val ratingsRDD = sc-textFile (dataPath + "ratings.dat") 


功能 一 : 通过 DataFrame 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 人 ? 
1. 从 点 评 数据 中 获得 观看 者 的 信息 ID; 
2. 把 ratings 和 users 表 进 行 Join 操作 ， 获 得 用 户 的 性 别 信息 ; 
3. 使 用 内 置 函数 (内 部 包含 超过 200 个 内 置 函数 ) 进行 信息 统计 和 分 析 
这 里 我 们 通过 DataFrame 来 实现 : 首先 通过 DataFrame 的 方式 表现 ratings 和 
users 的 数据 ， 然 后 进行 Join 和 统计 操作 


println ("功能 一 : 通过 DataFrame 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 
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多 少 人 ? ") 
val schemaforusers = StructType ("UserID: :Gender::RAge::OccupationID:: 
Zip-code".split("::"). 

map (column => StructField(column, StringType, true))) 

// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
val usersRDDRows = usersRDD.map( .split("::")) .map(line => Row(line 
(0) .trim,line(1). 

trim, line(2) .trim,line(3) .trim, line (4) .trim)) 

// 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 

val usersDataFrame = spark.createDataFrame (usersRDDRows, schemaforusers) 
// 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 DataFrame， 这 时 RDD 就 有 了 
// 元 数据 信息 的 描述 


val schemaforratings = StructType ("UserID: :MovieID".split("::"). 
map(column => StructField(column, StringType, true))). 
add ("Rating", DoubleType, true). 
add ("Timestamp", StringType, true) 


val ratingsRDDRows = ratingsRDD.map( .split("::")) .map(line => Row (line 
(0) .trim,line(1). 

trim,line(2) .trim.toDouble, line (3) .trim)) 
val ratingsDataFrame = spark.createDataFrame (ratingsRDDRows, 
schemaforratings) 





val schemaformovies = StructType ("MovieID: :Title::Genres".split("::") . 
map(column => StructField(column, StringType, true))) 

// 使 用 struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
val moviesRDDRows = moviesRDD.map( .split("::")) .map(line => 
Row (line(0) .trim,line(1). 

trim, line (2) .trim) ) // 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 
val moviesDataFrame = spark.createDataFrame (moviesRDDRows, 
schemaformovies) // 结 合 Row 和 StructType 的 元 数据 信息 基于 RDD 创建 


//DataFrame， 这 时 RDD 就 有 了 元 数据 信息 的 描述 


ratingsDataFrame.filter(s" MovieID = 1193") 

// 这 里 能 够 直接 指定 MovieID 的 原因 是 DataFrame 中 有 该 元 数据 信息 ! 
.join(usersDataFrame, "UserID") 
//Join 的 时 候 直 接 指 定 基 于 UserID 进行 Join, 这 相对 于 原生 的 RDD 操作 而 
// 言 ， 更 加 方便 、 快 捷 
-Select ("Gender", "Age") 
// 直 接 通 过 元 数据 信息 中 的 Gender 和 age 进行 数据 的 筛选 
.groupBy ("Gender", "Age") 
// 直 接 通过 元 数据 信息 中 的 Gender 和 age 进行 数据 的 groupBy 操作 
-count () // 基 于 groupBy 分 组 信息 进行 count 统计 操作 
-show(10) // 显 示 出 分 组 统计 后 的 前 10 条 信息 

/** 


* 功能 二 :用 SQL 语句 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 人 ? 

* 1 .注册 临时 表 ， 写 SQL 语句 需要 Table; 

* 2. 基于 上 述 注 册 的 临时 表 写 SQL 语句 ; 

*/ 
println ("功能 二 : 用 GlobalTempView 的 SQL 语句 实现 某 特定 电影 观看 者 中 男性 
和 女性 不 同年 龄 分 别 有 多 少 人 ? ") 
ratingsDataFrame.createGlobalTempView ("ratings") 
usersDataFrame.createGlobalTempView ("users") 


spark.sql ("SELECT Gender, Age, count (*) from global temp.usersu 
join global temp.ratings asr onu.UserID=r.UserID where MovieID 
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= 1193" +" group by Gender，RAge") .show (10) 


println ("功能 二 : 用 LocalTempVievw 的 SQL 语句 实现 某 特定 电影 观看 者 中 男性 和 
女性 不 同年 龄 分 别 有 多 少 人 ? ") 

ratingsDataFrame .createTempView("ratings") 
usersDataFrame.createTempView ("users") 


spark.sql ("SELECT Gender, Age, count(*) from users u join 
ratings as r on u.UserID = r.UserID where MovieID = 1193" + 
”group by Gender, Age") .show(10) 


/** 
* 功能 三 : 使 用 DataFrame 进行 电影 流行 度 分 析 : 所 有 电影 中 平均 得 分 最 高 (口碑 
* 最 好 ) 的 电影 及 观看 人 数 最 多 的 电影 流行 度 最 高 ) 
* "ratings.dat": UserID: :MovieID: :Rating::Timestamp 
* 得 分 最 高 的 Top10 电影 实现 思路 : 如 果 想 算 总 的 评分 ， 一 般 需 要 reduceByKey 
* 操作 或 者 aggregateBYKey 操作 


* ”第 一 步 : 把 数据 变 成 Key-Value， 大 家 想 一 下 在 这 里 什么 是 Key， 什 么 是 

* ， Value。 把 MovieID 设置 为 Key， 把 Rating 设置 为 Valuei 

* ”第 二 步 : 通过 reduceByKey 操作 或 者 aggregateByKey 实现 聚合 , 然后 呢 ? 
* ”第 三 步 : 排序 ， 如 何 做 ? 进行 Key 和 Value 的 交换 

*/ 


Println ("纯粹 通过 RDD 的 方式 实现 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 电影 TopN: ") 
val ratings= ratingsRDD.map(_.split("::")) .map(x => (x(0), x(1), 
x(2) )) .cache () // 格 式 化 出 电影 ID 和 评分 
ratings.map(x => (x. 2, (x. 3.toDouble, 1.toDouble))) 
// 格 式 化 成 为 Key-Value 的 形式 

TaduceByEeoy (lxr yy) => (ze Ur rx 2 2 

// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 

-map (X => (x. 2. 1.toDouble / x. 2. 2.toDouble, x. 1)) 

// 求 出 电影 平均 分 

.SortByKey (false) // 降 序 排列 

-map(x => (x. 27 x= 1)) 
.take (10) // 取 Top10 
.foreach (println) // 打 印 到 控制 台 


println ("通过 DataFrame 和 RDD 相 结合 的 方式 计算 所 有 电影 中 平均 得 分 最 高 〈 口 
碑 最 好 ) 的 电影 TopN:") 
FatingsDataFrame .select ("MovieID", "Rating") .groupBy ("MovieID"). 
avg ("Rating") .rdd. 
map(row => (row(1), (row(0), row(1)))).sortBy( . 1.toString. 
toDouble, false). 
map (tuple => tuple. 2) .collect.take (10) .foreach (Println) 


import spark.sqlContext.implicits._ 
println (" 通 过 纯粹 使 用 DataFrame 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 
的 电影 TopN:") 
ratingsDataFrame.select ("MovieID", "Rating") .groupBy ("MovieID"). 
avg ("Rating") .orderBy ($"avg (Rating)".desc) .show (10) 
/** 
* 上 面 的 功能 计算 的 是 口碑 最 好 的 电影 ， 接 下 来 分 析 粉 丝 或 者 观看 人 数 最 多 的 电影 
*/ 
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164. println ("纯粹 通过 RDD 的 方式 计算 所 有 电影 中 粉丝 或 者 观看 人 数 最 多 (最 流行 电影 ) 
的 电影 TopN:"Y 

1655 ratings.map(x => {x: 2: 1))-.reduceByKey( + ) .map(x => (x: 2; x. 1)). 

166 . sortByKey (false) .map (x => (x. 2, x. 1)) .collect() 

7 -take (10) .foreach (Println) 

168. println ("通过 DataFrame 和 RDD 结合 的 方式 计算 最 流行 电影 〈 即 所 有 电影 中 粉丝 
或 者 观看 人 数 最 多 ) 的 电影 TopN: ") 

169. ratingsDataFrame.select ("MovieID","Timestamp") .groupBy ("MovieID"). 

count () .rdd. 
了 了 GO map (row => (Tow(1) -toString-toLong， (row(0), row(1)))). 
sortByKey (false) - 

Ts map (tuple => tuple. 2) .collect() .take (10) .foreach (Println) 

2 

73: println ("纯粹 通过 DataFrame 的 方式 计算 最 流行 电影 ( 即 所 有 电影 中 粉丝 或 者 观 
看 人 数 最 多 ) 的 电影 TopN:") 

TT yh ratingsDataFrame.select ("MovieID","Timestamp"). 

开演 a ratingsDataFrame.select ("MovieID"). 

LT ratingsDataFrame .groupBy ("MovieID") .count (). 

I orderBy($"count".desc) .show (10) 

178. 

9 

180 . /a 

8 * 功能 四 : 分 析 最 受 男性 喜爱 的 电影 Top10 和 最 受 女性 喜爱 的 电影 Top10 

182. * 1. "users.dat": UserID::Gender::Age::OccupationID: :Zip-code 

4835 * 2. "ratings.dat": UserID: :MovieID: :Rating::Timestamp 分 析 : 单 


* 从 ratings 中 无 法 计算 出 最 受 男性 或 者 女性 喜爱 的 电影 Top10， 因 为 该 RDD 中 
* 没有 Gender 信息 ， 如 果 我 们 需要 使 用 Gender 信息 进行 Gender 的 分 类 ， 此 时 
* 一 定 需要 聚合 ， 当 然 ， 我 们 力求 聚合 使 用 的 是 mapjoin〔 分 布 式 计算 的 Killer 
* 是 数据 倾斜 ,Mapper 端的 Join 是 一 定 不 会 数据 倾斜 的 ), 这 里 可 和 否 使 用 mapjoin 
* 呢 ? 不 可 以 ， 因 为 用 户 的 数据 非常 多 ! 所 以 这 里 要 使 用 正常 的 Join， 此 处 的 场景 
* 不 会 数据 倾斜 , 因为 用 户 一 般 都 很 均匀 地 分 布 (但 是 系统 信息 搜集 端 要 注意 黑客 攻击 ) 





84. * Tips: 
85. * ”1。 因为 要 再 次 使 用 电影 数据 的 RDD, 所 以 复 用 了 前 面 cache 的 ratings 数据 ;: 
86. * ”2. 在 根据 性 别 过 滤 出 数据 后 ， 关 于 TopN 部 分 的 代码 ， 直 接 复 用 前 面 的 代码 就 行 了 ; 
87. * ”3。. 要 进行 Join 的 话 ， 需 要 key-value; 
88. * ”4. 在 进行 Join 的 时 候 通过 take 等 方法 注意 Join 后 的 数据 格式 ， 例 如 
.331970(33L97507455)E)) 
89. * ”5. 使 用 数据 元 余 实 现代 码 复 用 或 者 更 高 效 地 运行 ， 这 是 企业 级 项 目的 一 个 非常 
* ”重要 的 技巧 ! 
90 . a 
9 val male = "M" 
DR val female = "F™" 
935 val genderRatings = ratings.map(x => (x. 1, (x. 1, x. 2, x. 
3))) .join( 
194. usersRDD.map( .split("::")) .map(x => (x(0), x(1)))).cache() 
了 95 val genderRatingsDataFrame = ratingsDataFrame.join(users 
DataFrame，"UserID") .cache () 
于 6 
多 genderRatings -take (10) .foreach (Println) 
198. val maleFilteredRatings = genderRatings.filter(x => x. 2. 2. 
equals{("M")) .map(x => x: 2. 1) 
199. val maleFilteredRatingsDataFrame = genderRatingsDataFrame. 
filter("Gender= 'M'").select ("MovieID", "Rating") 
200. val femaleFilteredRatings = genderRatings.filter(x => x. 2. 2. 
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equals("F")) .map(x => x. 2. 1) 
val femaleFilteredRatingsDataFrame = genderRatingsDataFrame. 
filter("Gender= 'F'").select ("MovieID", "Rating") 


/** 

(8557r5..0) 
(6075,5.0) 
(LL667 S50) 
(3641,5.0) 
(1045, 5.0) 
(4136, 5.0) 
(253875:0) 
(22775-0) 
(8484,5.0) 
(559975=0) 


六 类 


A 
println ("纯粹 使 用 RDD 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10:") 
maleFilteredRatings.map(x => (x. 2, (x._3.toDouble, 1))) 
// 格 式 化 成 为 Key-Value 的 形式 
.reduceByKey((x, y) => (x. 1 + y. 1,x. 2 + y. 2)) 
// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 
-map(X => (X. 2. 1.toDouble / x. 2. 2，x._1)) // 求 出 电影 平均 分 
.sortByKey (false) // 降 序 排列 
-map{x => (x 2 Xe LY 
.take (10) // 取 Top10 
.foreach (println) // 打 印 到 控制 台 
println ("纯粹 使 用 DataFrame 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10:") 
maleFilteredRatingsDataFrame .grouPBY("MovieID") .avg("Rating") . 
orderBy ($"avg (Rating)".desc) .show(10) 
/** 
(719970550) 
(855,5.0) 
(3215375=0% 
(4763,5.0) 
(26246,5.0) 
(2332,5.0) 
(503,5.0) 
(4925,5.0) 
(8767,.5=0) 
(44657,5.0) 


闪光 


下 
println ("纯粹 使 用 RDD 实现 所 有 电影 中 最 受 女性 喜爱 的 电影 Top10:") 
femaleFilteredRatings .map(xX => (x. 2, (x. 3.toDouble, 1))) 
// 格 式 化 成 为 Key-Value 的 形式 

rediceByKey(l(lxr VY) => (z= T+ Ye 1 ae 2 V2) 

// 对 Value 进行 reduce 操作 ， 分 别 得 出 每 部 电影 的 总 的 评分 和 总 的 点 评 人 数 

.map(x => (X. 2 1.toDouble 7 文 。 2 2 广 1)) WV 求 出 电影 平均 邹 

.sortByKey (false) // 降 序 排列 

maplz => (x 2 Re) 

.take (10) // 取 Top10 

.foreach (println) // 打 印 到 控制 台 
println ("纯粹 使 用 DataFrame 实现 所 有 电影 中 最 受 女性 喜爱 的 电影 Top10:") 
femaleFilteredRatingsDataFrame .groupBY ("MovieID") .avg ("Rating"). 
orderBy ($"avg (Rating)".desc, $"MovieID".desc) .show(10) 


/*¥* 
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* 思考 题 : 如 果 想 让 RDD 和 DataFrame 计算 的 TopN 人 样 ， 该 如 何 
* 保证 ? 现在 的 情况 是 ， 例 如 计算 Top10， 而 其 同样 评分 的 不 止 10 个 ， 所 以 每 次 都 会 
* 从 中 取出 10 个 ， 这 就 导致 Top10 结果 不 一 致 ， 这 时 我 们 可 以 合用 一 个 新 的 列 参 
* 与 排序 ， 如 果 是 RDD， 该 怎么 做 呢 ? 这 时 就 要 进行 二 次 排序 。 

* ”如 果 是 DataFrame， 该 如 何 做 呢 ? 非常 简单 ， 只 需要 在 orderBy 函数 中 增加 
* ”一 个 排序 维度 的 字段 即 可 


bh 
/** 
* 功能 五 :最 受 不 同年 龄 段 人 员 欢 迎 的 电影 TopN 
* "users.dat": UserID: :Gender::Age::0OccupationID::Zip-code 
* 思路 : 首先 计算 TopN， 但 是 这 里 的 关注 点 有 两 个 : 
* “1 .不 同年 龄 阶段 如 何 界定 ， 这 个 问题 其 实 是 业务 的 问题 ， 当 然 ， 实 现时 可 以 使 
* ”用 RDD 的 filter, 例如 13 < age <18， 这 样 做 会 导致 运行 时 进行 大 量 的 计 
* ， 算 ， 因 为 要 进行 扫描 ， 所 以 会 非常 耗 性 能 。 所 以 ， 一 般 情况 下 ， 我 们 都 是 在 原始 
* ”数据 中 直接 对 要 进行 分 组 的 年 龄 段 提前 进行 ETL， 例 如 ， 进 行 ETL 后 产生 
* ”以 下 数据 : 
来 - Gender is denoted by a "M" for male and "F" for female 
- Age is chosen from the following ranges: 
Under lie, 
LO LB=24n 
训 之 2 2 与 一 号 下 
a 
A 和 避 二 训 99” 
5 
0 
* ”2. 性 能 问题 : 
罗 第 一 点 : 实现 时 可 以 使 用 RDD 的 filter, 例如 13 < age <18， 这 样 做 会 
导致 运行 时 进行 大 量 的 计算 ， 因 为 要 进行 扫描 ， 所 以 会 非常 耗 性 能 ， 我 们 通过 
本 提前 的 ETL 把 计算 发 生 在 Spark 业务 逻辑 运行 以 前 ， 用 空间 换 时 间 ， 当 然 ， 
站 这 些 实现 也 可 以 使 用 Hive， 因 为 Hive 语法 支持 非常 强悍 且 内 置 了 最 多 的 函数 ; 
可 第 二 点 : 这 里 要 使 用 mapjoin， 原 因 是 targetUsers 数据 只 有 UserID， 
数据 量 一 般 不 会 太 多 
芝 闪 
val targetQQUsers = usersRDD.map( -split("::")).map(x => (x(0), 
x(2))) .filter( . 2.equals("18")) 
val targetTaobaoUsers = usersRDD.map( .split("::")) .map(x => 


(x(0), x(2))) .filter( . 2.equals("25")) 


/** 
* 在 Spark 中 如 何 实现 mapjoin 呢 ， 显 然 要 借助 于 Broadcast， 把 数据 广播 到 
* Executor 级 别 ， 让 该 Executor 上 的 所 有 任务 共享 该 唯一 的 数据 ， 而 不 是 每 次 
* 运行 Task 时 都 要 发 送 一 份 数 据 的 复制 ， 这 显著 地 降低 了 网 络 数据 的 传输 和 JVM 
* 内 存 的 消耗 
#/ 


val targetQQUsersSet = HashSet() ++ targetQQUsers.map( . 1). 


collect () 
val targetTaobaoUsersSet = HashSet() ++ targetTaobaoUsers. 
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map( - 1) .collect() 


val targetQQUsersBroadcast = sc-broadcast (targetQQUsersSet) 
val targetTaobaoUsersBroadcast = sc.broadcast (targetTaobaoUsersSet) 


/** 
* QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 
* (Silence of the Lambs, The (1991),524) 
* (Pulp Fiction (1994),513) 
* (Forrest Gump (1994),508) 
* (Jurassic Park (1993),465) 
* (Shawshank Redemption, The (1994),437) 
下 
val movieID2Name = moviesRDD.map( -spPlLit("::"))-.map(xX => (x(0), 


x(1))) .collect.toMap 

println ("纯粹 通过 RDD 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电 

影 TopN 分 析 :") 

ratingsRDD.map( .split("::")) .map(x => (x(0), x(1))).filter(x => 
targetQQUsersBroadcast .value.contains (x. 1) 

) .map(x => (x. 2, 1)).reduceByKey( + ).map(x => (x. 2, x. 1)). 
sortByKey (false) .map (x => (x. 2, x. 1)) .take(10) . 
map(x => (movieID2Name.getOrElse(x. 1, null), x. 2)).foreach 
(println) 





println ("纯粹 通过 DataFrame 的 方式 实现 所 有 电影 中 QQ 或 者 微 信和 核心 目标 用 户 最 
喜爱 电影 TopN 分 析 :") 


ratingsDataFrame.join(usersDataFrame, "UserID") .filter("Rge 
'18'") .groupBy ("MovieID"). 
count () .orderBy ($"count".desc) .printSchema () 


/** 
* Tips: 
* ”1. orderBy 操作 需要 在 Join 之 后 进行 
*/ 


ratingsDataFrame.join(usersDataFrame, "UserID") .filter ("Age 
'18'") .groupBy ("MovieID"). 
count () .join (moviesDataFrame, "MovieID") .select ("Title", 
"count") .orderBy ($"count".desc) .show (10) 


淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 

(Pulp Fiction (1994),959) 

(Silence of the Lambs, The (1991),949 

(Forrest Gump (1994),935) 

(Jurassic Park (1993) ,894) 

(Shawshank Redemption, The (1994),859) 
*/ 

println ("纯粹 通过 RDD 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 

分 析 :") 

ratingsRDD.map( .split("::")) .map(x => (x(0), x(1))).filter(x => 
targetTaobaoUsersBroadcast .value.contains (x. 1) 

) .map(x => (x. 2, 1)).reduceByKey( + ).map(x => (x. 2, x. 1)). 
sortByKey (false) .map(x => (x. 2, x. 1)) .take(10). 
map(x => (movieID2Name.getOrElse(x. 1, null), x. 2)).foreach 
(println) 
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println ("纯粹 通过 DataFrame 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电 
影 TopN 分 析 :") 
ratingsDataFrame.join(usersDataFrame, "UserID") .filter("Age = 
"25"") .groupBy ("MovieID"). 
count () .join (moviesDataFrame, "MovieID") .select ("Title", "count"). 
orderBy($"count".desc) .show (10) 


while (true) {} // 和 通过 Spark Shell 运行 代码 可 以 一 直 看 到 Web 终端 
// 的 原理 一 样 ， 因 为 Spark Shell 内 部 有 一 个 LOOP 循环 


sc.stop() 


3. DateSet 方 式 案例 代码 


Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 代码 Movie_Users_Analyzer_DateSet. 
scala 如 例 12-5 所 示 。 
【 例 12-$】Movie_Users_Analyzer_DateSet.scala 代码 。 


1 
2 
3 
4 
本 


oo ~ an 





package com.dt.spark.sparksql 


import org.apache.10g4j.{Level, Logger} 

import org.apache.spark.SparkConf 

import org.apache.spark.sql .types.{DoubleType, StringType, StructField, 
StructType} 

import org.apache.spark.sql.{Row, SparkSession} 


import scala.collection.immutable.HashSet 


/** 


* 版 权 : DT 大 数据 梦 工厂 所 有 

* 时 间 : 2017 年 1 月 19 日 ; 

* i 用 户 观看 电影 和 点 评 电影 的 所 有 行为 数据 的 采集 、 过 滤 、 处 理 
示 : 


关 闫 党 美 美 美美 党 美美 美美 % 


人 一 般 越 来 越 多 地 喜欢 直接 把 Server 中 的 数据 发 送 给 Kafka， 因 为 更 加 


数据 过 滤 : 趋势 是 直接 在 Server 端 进行 数据 过 滤 和 格式 化 ， 当 然 ， 采 用 Spark SQL 进 
行 数据 的 过 滤 也 是 一 种 主要 形式 ， 
数据 处 理 : 


1. 一 个 基本 的 技巧 是 ， 先 使 用 传统 的 SQL 去 实现 一 个 数据 处 理 的 业务 逻辑 〈 自 己 可 以 
手动 模拟 一 些 数据 ) ， 

2. 再 次 推荐 使 用 DataSet 去 实现 业务 功能 尤其 是 统计 分 析 功 能 ; 

3 . 如 果 你 想 成 为 专家 级 别 的 顶级 Spark 人 才 ， 请 使 用 RDD 实现 业务 功能 ， 为 什么 ? 
因为 运行 的 时 候 是 基于 RDD 的 ! 





数据 : 强烈 建议 大 家 使 用 Parquet 
A 


"ratings.dat": UserID::MovieID::Rating::Timestamp 
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* 2. "users.dat": UserID::Gender::Age::0OccupationID::Zip-code 

* 3. "movies.dat": MovieID::Title::Genres 

* 4. "occupations.dat": OccupationID::OccupationName 一 般 情况 下 都 会 以 
* 程序 中 数据 结构 Haskset 的 方式 存在 ， 是 为 了 做 mapjoin 

vf 


. Object Movie Users Analyzer DateSet { 


case class User (UserID:String, Gender:String, Age:String, OccupationID: 
String, Zip Code:String) 

case class Rating (UserID:String, MovieID:String, Rating:Double, 
Timestamp:String) 

case class Movie (MovieID:String，Title:String，Genres:String) 


def main (args: Array[String]){ 


Logger .getLogger ("org") .setLevel (Level .ERROR) 


Var masterUrl = "local[8]" 
// 默 认 程序 运行 在 本 地 Local 模式 中 ， 主 要 用 于 学 习 和 测试 
var dataPath = "data/moviedata/medium/" // 数 据 存放 的 目录 


/** 
* 当 我 们 把 程序 打包 运行 在 集群 上 的 时 候 , 一 般 都 会 传 入 集群 的 URL 信息 ， 这 里 我 们 假设 
人 人。 第 一 个 参数 只 传 入 Spark 集群 的 URL， 第 二 个 参数 传 入 的 是 数据 的 地 
内 尿 
*/ 


if(args.length > 0) { 
masterUrl = args(0) 

} else if (args.length > 1) { 
dataPath = args (1) 

} 


/冰冰 
* 创建 Spark 会 话 上 下 文 SparkSession 和 集群 上 下 文 SparkContext, 在 SparkConf 中 
* 可 以 进行 各 种 依赖 和 参数 的 设置 等 ， 大 家 可 以 通过 SparkSubmit 脚本 的 help 去 看 设 
* 置信 息 ， 其 中 SparkSession 统一 了 Spark SQL 运行 的 不 同 环境 
2 


val sparkConf = new SparkConf() .setMaster (masterUI1) .setAppName 
("Movie Users Analyzer DataSet") 


/** 
* SparkSession 统一 了 Spark SQL 执行 时 的 不 同 的 上 下 文 环境 , 也 就 是 说 , Spark SQL 
* 无 论 运行 在 哪 种 环境 下 ， 我 们 都 可 以 只 使 用 SparkSession 这 样 一 个 统一 的 编程 入 口 
* 来 处 理 DataFrame 和 DataSet 编程 ， 不 需要 关注 底层 是 否 有 Hive 等 
Cp 


val spark = SparkSession 
-builder() 
.config (sparkConf) 
-getOrCreate () 
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Val sc = spark.sparkContext 
// 从 SparkSession 获得 的 上 下 文 ， 这 是 因为 我 们 读 原 生 文件 的 时 候 或 者 实现 一 
// 些 Spark SQL 目前 还 不 支持 的 功能 的 时 候 需 要 使 用 SparkContext 


import spark.implicits. 
/** 
* 读 取 数 据 ， 用 什么 方式 读 取 数 据 呢 ? 这 里 使 用 的 是 RDD! 


val usersRDD = sc.textFile(dataPath + "users.dat") 

val moviesRDD = sc.textFile (dataPath + "movies.dat") 

val occupationsRDD = sc.textFile(dataPath + "occupations.dat") 
val ratingsRDD = sc-textFile (dataPath + "ratings.dat") 


/** 
* 功能 一 : 通过 DataFrame 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 人 ? 
* ”1 .从 点 评 数 据 中 获得 观看 者 的 信息 ID; 
* 2. 把 ratings 和 users 表 进 行 Join 操作 获得 用 户 的 性 别 信息 ; 
* ”3。. 使 用 内 置 函数 (内 部 包含 超过 200 个 内 置 函数 ) 进行 信息 统计 和 分 析 
* ”这 里 我 们 通过 DataFrame 来 实现 : 首先 通过 DataFrame 的 方式 来 表现 ratings 和 
* users 的 数据 ， 然 后 进行 Join 和 统计 操作 
省 


a ("功能 一 : 通过 DataFrame 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 
J ") 
val schemaforusers = StructType ("UserID: :Gender: :Age: :OccupationID:: 
Zip Coder -split(: "Ys 

map (Column => StructField(column, StringType, true))) 
// 使 用 Struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 
val usersRDDRows = usersRDD.map( .split("::")) .map(line => Row 
(line (0) .trim,line(1). 

trim,line(2) .trim, line(3) .trim,line(4) .trim)) 
// 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 
val usersDataFrame = spark.createDataFrame (usersRDDRows, schemaforusers) 
// 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 DataFrame， 这 时 RDD 就 有 了 
// 元 数据 信息 的 描述 


val usersDataSet = UsersDataFrame .as[User] 





val schemaforratings = StructType ("UserID: :MovieID".split("::") . 
map(column => StructField(column, StringType, true))). 
add ("Rating", DoubleType, true). 
add ("Timestamp",StringType, true) 


val ratingsRDDRows = ratingsRDD.map( .split("::")) .map(line => 
Row (line(0) .trim,line(1). 

trim,line(2) .trim.toDouble, line (3) .trim)) 
val ratingsDataFrame = spark.createDataFrame (ratingsRDDRows, 
schemaforratings) 
val ratingsDataSet = ratingsDataFrame.as [Rating] 


val schemaformovies = StructType ("MovieID::Title::Genres".split ("::"). 
map(column => StructField(column, StringType, true))) 
// 使 用 struct 方式 把 Users 的 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 数据 的 元 数据 信息 


Val moviesRDDRows = moviesRDD.map( .split("::")) .map(line => 
Row (line(0) .trim,line(1). 
trim, line (2) .trim) ) // 把 我 们 的 每 条 数据 变 成 以 Row 为 单位 的 数据 


Val moviesDataFrame = spark.createDataFrame (moviesRDDRows, 
schemaformovies) // 结 合 Row 和 StructType 的 元 数据 信息 ， 基 于 RDD 创建 
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//DataFrame， 这 时 RDD 就 有 了 元 数据 信息 的 描述 


val moviesDataSet = moviesDataFrame.as[Movie] 


int] 
a MovieID = 1193") 
// 这 里 能 够 直接 指定 MovieID 的 原因 是 DataFrame 中 有 该 元 数据 信息 ! 
-join (usersDataFrame，"UserID") 
//Join 的 时 候 直接 指定 基于 UserID 进行 Join, 这 相对 于 原生 的 RDD 操作 而 
// 言 ， 更 加 方便 、 快 捷 
-Select ("Gender", "Age") 
// 直 接 通过 元 数据 信息 中 的 Gender 和 Age 进行 数据 的 筛选 
-groupBy ("Gender", "Age") 
// 直 接 通过 元 数据 信息 中 的 Gender 和 Age 进行 数据 的 groupBy 操作 
.count () ”// 基 于 groupBy 分 组 信息 进行 count 统计 操作 
-show (10) // 显 示 出 分 组 统计 后 的 前 10 条 信息 
println ("功能 一 : 通过 DataSet 实现 某 特 定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 
有 多 少 人 ? ") 
FatingsDataSet.filter(s5"” MovieID = 1193") 
// 这 里 能 够 直接 指定 MovieID 的 原因 是 DataFrame 中 有 该 元 数据 信息 
.join (usersDataFrame, "UserID") 
//Join 的 时 候 直接 指定 基于 UserID 进行 Join， 这 相对 于 原生 的 RDD 操作 而 言 ， 
// 更 加 方便 、 快 捷 
.Select ("Gender", "Age") 
// 直 接 通 过 元 数据 信息 中 的 Gender 和 age 进行 数据 的 筛选 
.groupBy ("Gender", "Age") 
// 直 接 通过 元 数据 信息 中 的 Gender 和 age 进行 数据 的 groupBy 操作 
.count () // 基 于 groupBy 分 组 信息 进行 count 统计 操作 
y .show (10) // 显 示 出 分 组 统计 后 的 前 10 条 信息 
六 六 
* 功能 二 :用 SQL 语句 实现 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 分 别 有 多 少 人 ? 
* 1 .注册 临时 表 ， 写 SQL 语句 需要 Table; 
* 2. 基 于 上 述 注册 的 临时 表 写 SQL 语句 ; 
*/ 
println ("功能 二 : 用 GlobalTempView 的 SQL 语句 实现 某 特定 电影 观看 者 中 男性 
和 女性 不 同年 龄 分 别 有 多 少 人 ? ") 
FatingsDataFrame .createGlobalTempView("ratings") 
usersDataFrame.createGlobalTempView ("users") 


spark.sql ("SELECT Gender, Age, count(*) from global temp.usersu 
join global temp.ratings as r onu.UserID=r.UserID where MovieID 
i 

"group by Gender, Age") .show(10) 


println ("功能 二 : 用 LocalTempView 的 SQL 语句 实现 某 特定 电影 观看 者 中 男性 和 
女性 不 同年 龄 分 别 有 多 少 人 ? ") 
ratingsDataFrame.createTempView ("ratings") 
usersDataFrame.createTempView ("users") 


spark.sql ("SELECT Gender, Age, count(*) from users u join 
ratings as r on u.UserID = r.UserID where MovieID = 1193" + 
"group by Gender, Age") .show(10) 


/** 


* 功能 三 : 使 用 DataFrame 进行 电影 流行 度 分 析 : 所 有 电影 中 平均 得 分 最 高 (口碑 
* 最 好 ) 的 电影 及 观看 人 数 最 多 的 电影 流行 度 最 高 ) 
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* "ratings.dat": UserID: :MovieID: :Rating::Timestamp 
* 得 分 最 高 的 Top10 电影 实现 思路 : 如 果 想 计算 总 的 评分 , 一 般 需要 reduceByKey 
* 操作 或 者 aggregateByKey 操作 


* ”第 一 步 : 把 数据 变 成 Key-Value， 大 家 想 一 下 在 这 里 什么 是 Key， 什 么 是 

* ， Value。 把 MovieID 设置 为 Key， 把 Rating 设置 为 Value; 

* ”第 二 步 : 通过 reduceByKey 操作 或 者 aggregateByKey 实现 聚合 , 然后 呢 ? 
* ”第 三 步 : 排序 ， 如 何 做 ? 进行 Key 和 Value 的 交换 

*/ 


println ("通过 纯粹 使 用 DataFrame 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 
的 电影 TopN:") 
ratingsDataFrame.select ("MovieID", "Rating") .groupBy ("MovieID"). 
avg ("Rating") .orderBy ($"avg (Rating)".desc) .show (10) 
println ("通过 纯粹 使 用 DataSet 方式 计算 所 有 电影 中 平均 得 分 最 高 (口碑 最 好 ) 的 
电影 TopN:") 
ratingsDataSet .select ("MovieID", "Rating") .groupBy ("MovieID"). 
avg ("Rating") .orderBy ($"avg (Rating)".desc) .show (10) 
/** 
* 上 面 的 功能 计算 的 是 口碑 最 好 的 电影 ， 接 下 来 分 析 粉 丝 或 者 观看 人 数 最 多 的 电影 
芝 人 
println ("纯粹 通过 DataFrame 的 方式 计算 最 流行 电影 〈 即 所 有 电影 中 粉丝 或 者 观 
看 人 数 最 多 ) 的 电影 TopN:") 
ratingsDataFrame.select ("MovieID","Timestamp"). 
ratingsDataFrame.select ("MovieID"). 
ratingsDataFrame.groupBy ("MovieID") .count () . 
orderBy($"count".desc) .show (10) 
println ("纯粹 通过 DataSet 的 方式 计算 最 流行 电影 ( 即 所 有 电影 中 粉丝 或 者 观看 人 
数 最 多 ) 的 电影 TopN:") 
ratingsDataSet .groupBy ("MovieID") .count () . 
orderBy($"count".desc) .show (10) 


/** 
* 功能 四 : 分 析 最 受 男性 喜爱 的 电影 Top10 和 最 受 女性 喜爱 的 电影 Top10 
* 1. "users.dat": UserID::Gender::RAge::OccupationID: :Zip-code 
* 2. "ratings.dat": UserID::MovieID::Rating::Timestamp 
分 析 : 单 从 ratings 中 无 法 计算 出 最 受 男性 或 者 女性 喜爱 的 电影 Top10， 因 为 
该 RDD 中 没有 Gender 信息 ， 如 果 我 们 需要 使 用 
Gender 信息 进行 Gender 的 分 类 ， 此 时 一 定 需要 聚合 ， 当 然 ， 我 们 力求 聚合 
使 用 的 是 mapjoin (分 布 式 计算 的 Killer 是 数据 倾斜 , Mapper 端的 Join 
是 一 定 不 会 数据 倾斜 的 ) ， 这 里 可 否 使 用 mapjoin 呢 ? 不 可 以 ， 因 为 用 户 的 
数据 非常 多 ! 所 以 ， 在 这 里 要 使 用 正常 的 Join， 此 处 的 场景 不 会 数据 倾斜 ， 
因为 用 户 一 般 都 很 均匀 地 分 布 〈 但 是 ， 系 统 信息 搜集 端 要 注意 黑客 攻击 ) 
Tips: 
1. 因为 要 再 次 使 用 电影 数据 的 RDD, 所 以 复 用 了 前 面 Cache 的 ratings 数据 ; 
2. 在 根据 性 别 过 滤 出 数据 后 ， 关 于 TopN 部 分 的 代码 ， 直 接 复 用 前 面 的 代码 就 行 ; 
3. 要 进行 Join， 需 要 key-value; 
4. 在 进行 Join 的 时 候 通 过 take 等 方法 注意 Join 后 的 数据 格式 ， 例 如 
(13339 C133L9. 5307455) EY} 
5. 使 用 数据 元 余 来 实现 代码 复 用 或 者 更 高 效 地 运行 ， 这 是 企业 级 项 目的 一 个 非 
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val genderRatingsDataFrame = ratingsDataFrame.join (usersDataFrame, 
"UserID") .cache () 

val genderRatingsDataSet = ratingsDataSet.join(usersDataset, 
"UserID") .cache () 

val maleFilteredRatingsDataFrame = genderRatingsDataFrame.filter 
("Gender= 'M'") -select ("MovieID", "Rating") 

val maleFilteredRatingsDataSet = genderRatingsDataSet.filter 
("Gender= 'M'") -select ("MovieID", "Rating") 

val femaleFilteredRatingsDataFrame = genderRatingsDataFrame. 
filter("Gender= 'F'").select ("MovieID", "Rating") 

val femaleFilteredRatingsDataSet = genderRatingsDataSet.filter 
("Gender= 'F'").select ("MovieID", "Rating") 


/** 

(855r5:0) 
(6075,5.0) 
(1166, 5.0) 
(3641,5.0) 
(1045,5.0) 
(4136,5.0) 
(253875=0} 
VI2277520} 
(8484,5.0) 
(S59953.0} 
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*/ 


println ("纯粹 使 用 DataFrame 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10:") 
maleFilteredRatingsDataFrame .groupBy ("MovieID") .avg("Rating") . 
orderBy ($"avg (Rating)" .desc) .show(10) 
Println (" 纯 粹 使 用 DataSet 实现 所 有 电影 中 最 受 男性 喜爱 的 电影 Top10:") 
maleFilteredRatingsDataSet .groupBy ("MovieID") .avg("Rating") . 
orderBy ($"avg (Rating)".desc) .show (10) 
/** 
* (789,5.0) 
(855;5.0) 
《3215375-0) 
(4763,5.0) 
(26246,5.0) 
(2332 320) 
(503,5.0) 
(4925,5.0) 
(8767,5.0) 
(44657,5.0) 
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println ("纯粹 使 用 DataFrame 实现 所 有 电影 中 最 受 女性 喜爱 的 电影 Top10:") 
femaleFilteredRatingsDataFrame .groupBY("MovieID") .avg ("Rating"). 
orderBy ($"avg (Rating)".desc, $"MovieID".desc) .show(10) 


println ("纯粹 使 用 Dataset 实现 所 有 电影 中 最 受 女性 喜爱 的 电影 Top10:") 
femaleFilteredRatingsDataSet .groupBy ("MovieID") .avg ("Rating"). 
orderBy ($"avg (Rating)".desc, $"MovieID".desc) .show(10) 


/本 来 
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* 思考 题 : 如 果 想 让 RDD 和 DataFrame 计算 的 TopN 的 每 次 结果 都 一 样 ， 该 如 何 

* 保证 ? 现在 的 情况 是 ， 例 如 计算 Top10， 而 其 同样 评分 的 不 止 10 个 ， 所 以 每 次 都 会 
* 从 中 取出 10 个 ， 这 就 导致 大 家 的 结果 不 一 致 ， 这 个 时 候 ， 我 们 可 以 使 用 一 个 新 的 
* 列 参与 排序 : 

* ”如 果 是 RDD, 该 怎么 做 呢 ? 这 时 就 要 进行 二 次 排序 ,按照 我 们 前 面 和 大 家 讲解 的 
* ”二 次 排序 的 视频 内 容 即 可 ， 如 果 是 DataFrame， 该 如 何 做 呢 ? 非常 简单 ， 我 们 
* ”只 需要 在 orderBy 函数 中 增加 一 个 排序 维度 的 字段 即 可 


*/ 

/** 
* 功能 五 : 最 受 不 同年 龄 段 人 员 欢 迎 的 电影 TopN 
* "users.dat": UserID: :Gender::Age::0OccupationID: :Zip-code 
* 思路 : 首先 还 是 计算 TopN， 但 是 这 里 的 关注 点 有 两 个 : 
* ”1. 不 同年 龄 阶段 如 何 界定 ， 这 个 问题 其 实 是 业务 的 问题 ， 当 然 ， 实 现时 可 以 使 
* ”用 RDD 的 filter, 例如 13 < age <18， 这 样 做 会 导致 运行 时 进行 大 量 的 计 
* ” 算 ， 因为 要 进行 扫描 ， 所 以 会 非常 耗 性 能 。 所 以 ,一 般 情况 下 ,我 们 都 是 在 原始 
* ”数据 中 直接 对 要 进行 分 组 的 年 龄 段 提前 进行 ETL， 例 如 ， 进 行 ETL 后 产生 以 下 
* 数据 : 
于 — Gender is denoted by a "M" for male and "F" for female 
. - Age is chosen from the following ranges: 
"Under Lie” 
2 a bi 
证 号 23 有 
D> 
区 规 55 5=49" 
a 1 el 
* 302 "S64" 
* ”2.。. 性 能 问题 : 
本 第 一 点 : 实现 时 可 以 使 用 RDD 的 filter， 例 如 13 < age <18， 这 样 做 会 
* 导致 运行 时 进行 大 量 的 计算 ， 因 为 要 进行 扫描 ， 所 以 会 非常 耗 性 能 ， 我 们 通过 
提前 的 ETL 把 计算 发 生 在 Spark 业务 逻辑 运行 以 前 ， 用 空间 换 时 间 ， 当 然 ， 
这 些 实现 也 可 以 使 用 Hive， 因 为 Hive 语法 支持 非常 强悍 且 内 置 了 最 多 的 函数 ; 
* 第 二 点 : 这 里 要 使 用 mapjoin， 原 因 是 targetUsers 数据 只 有 UserID， 
- 数据 量 一 般 不 会 太 多 


println ("纯粹 通过 DataFrame 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核心 目标 用 户 最 
喜爱 电影 TopN 分 析 :") 


FatingsDataFrame.join(usersDataFrame，"UserID") .filter("Rge = 
'18'") .groupBy ("MovieID"). 
count () .orderBy ($"count" .desc) .PrintSchema () 


ratingsDataSet.join(usersDataSet，"UserID") .filter("RAge = 
'18'") .groupBy ("MovieID"). 
count () .orderBy ($"count" .desc) .PrintSchema () 


/** 
* Tips: 
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2 请 * ”1 .orderBy 操作 需要 在 Join 之 后 进行 

他人 */ 

2.138 println ("纯粹 通过 DataFrame 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核心 目标 用 户 最 
喜爱 电影 TopN 分 析 :") 

之 ratingsDataFrame.join(usersDataFrame, "UserID") .filter("Age = 
"18"") .groupBy ("MovieID"). 

2 count () .join (moviesDataFrame, "MovieID") .select ("Title", "count"). 

orderBy($"count".desc) .show (10) 

276. println ("纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核心 目标 用 户 最 喜 
爱 电影 TopN 分 析 :") 

省 ratingsDataSet .join (usersDataSet, "UserID") .filter("Age = 
'18'") .groupBy ("MovieID"). 

了 本 count () .join (moviesDataSet, "MovieID") .select ("Title", 

"count") .sort ($"count" .desc) .show (10) 

a 

280. 

RE 

282 . 

283 . Ws 

284. * 淘宝 核心 目标 用 户 最 喜爱 电影 TopN 分 析 

5 * (Pulp Fiction (1994),959) 

286. * (Silence of the Lambs, The (1991) ,949) 

人 SI * (Forrest Gump (1994),935) 

288. * (Jurassic Park (1993),894) 

289. * (Shawshank Redemption, The (1994),859) 

2905 */ 

9 

之 92= println ("纯粹 通过 DataFrame 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电 
影 TopN 分 析 :") 

293. ratingsDataFrame.join(usersDataFrame, "UserID") .filter("Rge = 
'25'") .groupBy ("MovieID"). 

294. count () .join (moviesDataFrame, "MovieID") .select ("Title", "count"). 
orderBy($"count".desc) .show (10) 

2955 

296. println ("纯粹 通过 DataSet 的 方式 实现 所 有 电影 中 淘宝 核心 目标 用 户 最 喜爱 电影 
TopN 分 析 :") 

ZIT ratingsDataSet .join (usersDataSet, "UserID") .filter("Age = 
'25'") .groupBy ("MovieID"). 

298. count () .join (moviesDataSet, "MovieID") .select ("Title", "count") . 

sort($"count".desc) .limit (10) .show () 

299. 

300 . 

301s while (true) {} 

// 和 通过 Spark Shel1 运行 代码 可 以 一 直 看 到 Web 终端 的 原理 一 样 ,因为 Spark 
//Shel1l 内 部 有 一 个 LOOP 循环 

3022 

人 人 3 sc.stop() 

304 

305 

306. } 

307. } 


12.13 本 章 总 结 
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评 系统 进行 了 统计 分 析 ， 如 纯粹 通过 RDD 的 方式 实现 、 通 过 DataFrame 和 RDD 相 结合 的 方 
式 实现 、 纯 粹 使 用 DataFrame 方式 计算 、 纯 粹 通过 DataSet 实现 的 方式 ， 综 合 阐述 了 电影 点 
评 系统 业务 场景 的 实现 。 例 如 ， 统 计 某 特定 电影 观看 者 中 男性 和 女性 不 同年 龄 的 人 数 、 计 算 
所 有 电影 中 平均 得 分 最 高 〈 口 碑 最 好 ) 的 电影 TopN、 计 算 最 流行 电影 〈 即 所 有 电影 中 粉丝 
或 者 观看 人 数 最 多 ) 的 电影 TopN、 实现 所 有 电影 中 最 受 男性 和 女性 喜爱 的 电影 TopN、 实 
现 所 有 电影 中 QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 、 实 现 所 有 电影 中 淘宝 核心 
目标 用 户 最 喜爱 电影 TopN 分 析 、 电 影 点 评 系统 实现 Java 和 Scala 版 本 的 二 次 排序 系统 等 。 
读者 深入 掌握 大 数据 电影 点 评 系统 应 用 案例 全 面 综合 的 应 用 实现 ， 就 可 以 在 生产 环境 类 似 系 
统 中 推广 实现 。 
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本 章 的 企业 人 员 管 理 系统 应 用 案例 将 通过 Spark 2.2 进行 Dataset 开发 实战 。 

Apache Spark 2.0.0 是 2X 上 的 第 一 个 版 本 。Spark 2.0.0 新 版 本 的 主要 更 新 包括 API 可 用 
性 ，SQL 2003 支持 ， 性 能 改进 ， 结 构 化 流 式 处 理 ，R 语言 UDF 自 定 义 函 数 的 支持 、 操 作 改 
进 等 。 在 Apache Spark 2.0.0 版 本 中 ，300 多 位 源码 贡献 者 修复 了 2500 多 个 补丁 。 

Spark 2.0 较 大 的 变化 包括 : 

(1) 统一 了 DataFrame and Dataset: 在 Scala 和 Java 中 ，DataFrame 和 Dataset 已 经 统一 ， 
DataFrame 只 是 Dataset Row 类 型 的 别名 。SparkSession 是 统一 的 新 入 口 点 : 用 于 替换 
DataFrame 和 Dataset API 的 旧 SQLContext 和 HiveContext, 保留 SQLContext 和 HiveContext， 
以 实现 向 后 兼容 。 

(2) Spark 2.0 发 布 了 Structured Streaming 的 实验 版 本 。Structured Streaming 是 基于 Spark 
SQL 和 Catalyst 优化 器 构建 的 高 级 流 API。 结 构 化 流 允 许 用 户 使 用 与 静态 数据 源 相同 
的 DataFrame/Dataset API 对 结构 流 数据 进行 编程 ， 利 用 Catalyst 优化 器 自动 实现 增 量 化 查询 
计划 。 





13.1 企业 人 员 管 理 系统 应 用 案例 业务 需求 分 析 


Spark 2.2 实战 之 Dataset 开发 实战 企业 人 员 管 理 系统 应 用 案例 的 业务 需求 分 析 : 

(1) 企业 人 员 管 理 系 统 应 用 案例 中 的 企业 人 员 信 息 包括 姓名 、 年 龄 数据 信息 。 在 企业 人 
员 管理 系统 中 ， 需 对 企业 人 员 的 年 龄 进行 统计 分 析 ， 如 估算 员工 10 年 以 后 的 工资 数值 等 ， 涉 
及 对 员工 的 年 龄 进行 计算 。 我 们 可 以 使 用 map、flatMap、mapPartitions 来 实现 。 

(2) 在 企业 人 员 管理 系统 中 ， 可 通过 sort、join、joinWith 算 子 对 人 员 信 息 中 的 年 龄 进行 
排序 ， 将 企业 人 员 信 息 记 录 和 企业 人 员 评 分 数据 进行 关联 ， 查 询 企业 人 员 的 年 龄 、 姓 名 及 评 
分 数据 信息 。 

(3) 通过 randomSplit、sample、select 算 子 对 人 员 信 息 中 的 人 员 进 行 随机 采样 分 析 ; 人 
员 信 息 中 如 包括 较 多 的 属性 信息 ， 也 可 通过 投影 选择 需要 进行 查询 的 属性 进行 展示 。 

(4) 在 企业 人 员 管理 系统 中 ， 对 企业 人 员 信 息 的 姓名 、 年 龄 进行 分 组 ， 然 后 使 用 agg 中 
的 groupBy、agg、col 等 内 置 函 数 进行 计数 、 最 大 值 、 最 小 值 、 平 均值 等 各 种 统计 分 析 。 

(5) 通过 avg、sum、countDistinct 等 一 系列 算 子 统计 分 析 年 龄 总 和 、 平 均 年 龄 、 最 大 年 
龄 、 最 小 年 龄 、 唯 一 年 龄 计数 、 平 均 年 龄 等 人 员 信息 数据 。 
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13.2 ”企业 人 员 管 理 系统 应 用 案例 数据 建 模 


1. 企业 人 员 管理 系统 应 用 案例 数据 的 来 源 


企业 人 员 管 理 系统 应 用 案例 中 使 用 的 是 Spark 官网 提供 的 实例 数据 。 从 Spark 官网 
( http://spark.apache.org/downloads.html ) 下 载 Pre-built for Hadoop 2.6 预 编译 版 本 
spark-2.1.0-bin-hadoop2.6.tgz， 将 文件 解压 缩 到 本 地 文件 目录 。spark-2.1.0-bin-hadoop2.6\ 
examples\src\main\resources 目录 下 包括 people.json 文件 。 

在 工程 SparkApps 的 data 目录 下 新 建 peoplemanagedata 目录 ， 将 上 述 解 压缩 生成 的 企业 
人 员 信 息 peoplejson 文件 保存 到 data\peoplemanagedata 目录 下 。 本 节 的 重点 是 阐述 Spark 2.0 
Dataset 在 企业 人 员 管 理 系统 应 用 案例 中 的 应 用 ， 企 业 人 员 分 数 评 分 信息 peopleScores.json 是 
人 工 创 建 的 json 文件 ， 在 peopleScores.json 中 模拟 输入 企业 人 员 分 数 评分 的 数据 。 


2. 企业 人 员 管理 系 统 应 用 案例 数据 的 格式 说 明 


企业 人 员 管 理 系统 应 用 案例 的 数据 包含 两 个 数据 文件 : 企业 人 员 信 息 、 企 业 人 员 分 数 评 
分 信息 。 

首先 查看 企业 人 员 信 息 的 JSON 格式 描述 信息 。JSON 数据 的 书写 格式 是 : 名 称 / 值 对 。 
名 称 / 值 对 组 合 中 的 “名 称 ” 写 在 前 面 ，“ 值 对 ” 写 在 后 面 ， 中 间 用 冒号 (: ) 隔 开 ， 企 业 人 
员 信 息 文件 peoplejson 的 格式 描述 如 下 。 


{" name ": name -Value, " age ": age -Value } 
姓名 / 值 对 、 年 龄 / 值 对 

- name: 用户 姓 名 。 

- name-Value: 用 户 姓名 的 值 。 

- age: 用 户 年 龄 。 

- age -Value: 用 户 年 龄 的 值 。 

从 用 户 信息 文件 peoplejson 中 摘 取 部 分 记录 如 下 。 
{"name":"Michael", "age":16} 
{"name":"Andy", "age":30} 
{"name":"Justin", "age":19} 
{"name":"Justin", "age":29} 
{"name":"Michael", "age":46} 


接 下 来 查看 企业 人 员 分 数 评分 信息 的 JSON 格式 描述 信息 。JSON 数据 的 书写 格式 是 : 
名 称 / 值 对 。 名 称 / 值 对 组 合 中 的 “名 称 ” 写 在 前 面 ，“ 值 对 ” 写 在 后 面 ， 中 间 用 冒号 (: ) 
隔 开 。 企 业 人 员 分 数 评分 信息 文件 peopleScores.json 的 格式 描述 如 下 。 


{" n": n -Value，"” score ": score -Value } 
姓名 / 值 对 、 分 数 评分 / 值 对 

nH 

=- n-Value: 用 户 姓名 的 值 。 

score: 用 户 分 数 评分 。 

一 score -Value: 用 户 分 数 评分 的 值 。 





On 必 wm 
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从 企业 人 员 分 数 评分 信息 文件 peopleScoresjson 中 摘 取 部 分 记录 如 下 。 


1 nMichael™, "score":86} 
Za tm An "seore >TO 
Sa nstin vecorew:09. 
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本 节 通 过 SparkSession 创建 企业 人 员 管 理 系 统 应 用 案例 开发 实战 上 下 文 环 境 。 
13.3.1 Spark 1.6.0 版 本 SparkContext 


在 讲解 Spark 2.0.0 SparkSession 前 ， 先 回顾 一 下 Spark 之 前 版 本 Spark 1.6.0 SparkContext 
的 使 用 。SparkContext 是 Spark 程序 所 有 功能 的 唯一 入 口 ， 采 用 Scala、Java、Python、R 等 
都 必须 有 一 个 SparkContext。SparkContext 的 核心 作用 : 初始 化 Spark 应 用 程序 运行 所 需要 的 
核心 组 件 ， 包 括 DAGScheduler、TaskScheduler、SchedulerBackend; 同时 还 会 负责 Spark 程 
序 往 Master 注册 程序 等 ，SparkContext 是 整个 Spark 应 用 程序 中 至 关 重 要 的 一 个 对 象 。 
SparkContext 是 迈 入 Spark 的 天 堂 之 门 ! 使 用 val sc = new SparkContext(conf) 时 会 新 建 一 个 
SparkContext 实例 ， 在 SparkContext 构造 器 class SparkContext(config: SparkConf) 人 类 初始 化 
的 时 候 ，SparkContext 除了 类 中 的 方法 以 外 ， 其 他 所 有 语句 都 会 执行 ! 如 加 载 的 import 包 、 
定义 的 辅助 构造 器 、 定 义 的 属性 等 。 

Spark 1.6.0 中 对 数据 的 查询 分 成 两 个 分 支 : hiveContext 和 sqlContext。 两 者 之 间 的 关系 ; 
hiveContext 继承 自 sqlContext， 除 拥有 sqlContext 的 特性 外 ， 还 拥有 自身 的 特性 〈 支 持 hive 
的 语法 ) 。 在 Spark Streaming 流 式 处 理 中 ，Spark 1.6.0 使 用 StreamingContext 上 下 文 。 

(1) hiveContext 使 用 方式 : 在 Spark 1.6 版 本 中 ，HiveContext 的 创建 方式 如 下 。 


: val conf = new SparkConf() // 创 建 SparkConf 对 象 
2 conf.setAppName ("SparkSQLWindowsFuntionOps") 
// 设 置 应 用 程序 的 名 称 ， 在 程序 运行 的 监控 界面 中 可 以 看 到 名 称 
3 conf.setMaster ("local") // 此 时 ， 程 序 在 本 地 运行 ， 不 需要 安装 Spark 集群 
4 Val sc = new SparkContext (conf) 
I val hiveContext =new HiveContext (sc) 
6 hiveContext.sql ("use hive") 
A hiveContext .sql ("DROP TABLE IF EXISTS scores") 


(2) sqlContext 使 用 方式 : 在 Spark 1.6 版 本 中 ，sqlContext 的 创建 方式 如 下 。 


2 val conf = new SparkConf () // 创 建 SparkConf 对 象 
2 conf.setAppName ("SparksQLInnerFunctions") 
// 设 置 应 用 程序 的 名 称 ， 在 程序 运行 的 监控 界面 中 可 以 看 到 名 称 
所 人 conf.setMaster ("local") 
明 忆 val sc=new SparkContext (conf) // 创 建 SparkContext 对 象 ,通过 传 入 SparkConf 
// 实 例 来 定制 Spark 运行 的 具体 参数 和 配置 信息 
5 val sqlContext = new SQLContext (sc)  // 构 建 sQL 上 下 文 
I 


7. val userDataDF = sqlContext.createDataFrame (userDataRDDRow, structTypes) 


“0s 
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(3 ) StreamingContext 使 用 方式 : 在 Spark 1.6 版 本 中 , StreamingContext 的 创建 方式 如 下 。 


1 val sparkConf = new SparkConf () .setAppName ("AdClickedSstreamingstats") 
过 -SetMaster ("spark://192.168.189.1:7077") .setJars (List(....... jar")) 
三 val ssc = new StreamingContext (sparkConf, Seconds (10) ) 

4 ssc.checkpoint ("/usr/local/IMF testdata/IMFcheckpoint114") 


a 


13.3.2 ”Spark 2.0.0 版 本 SparkSession 


在 Spark 2.0 使 用 构造 器 模式 (Builder) 新 建 了 一 个 新 的 入 口 SparkSession， 用 于 替换 
DataFrame 和 Dataset API 的 旧版 本 中 的 SQLContext 和 HiveContext, 但 在 Spark 2.0 中 保留 了 
SQLContext 和 HiveContext, 实现 向 后 兼容 。Spark Session 整合 了 SQLContext 和 HiveContext 
的 入 口 ,内 部 创建 的 仍 是 sparkContext。 Spark Session 只 是 基于 sparkContext 基础 之 上 的 封装 ， 
Spark 程序 所 有 功能 的 唯一 入 口 仍然 是 SparkContext。 

SparkSession 使 用 方式 : 在 Spark 2.0 版 本 中 ，SparkSession 中 的 创建 方式 如 下 。 
val conf = new SparkConf () .setMaster ("1ocal [3]") .setAppName ("HiSpark") 
Val spark = SparkSession 

.builder() 


.config (conf) 


.Cconfig("spark.sql .warehouse.dir", "spark-warehouse") 
.getOrCreate () 


SparkSession 使 用 构造 器 模式 : 

(1) SparkSession Builder 模式 使 用 了 链 式 调用 ， 链 式 构建 配置 的 键 值 对 ， 配 置 的 信息 可 
读 性 更 佳 。 

Spark 2.1.1 版 本 的 SparkSession.scala 的 源码 如 下 。 


wm 必 wN 


1. class Builder extends Logging { 

> 

区 Private[this] val options = new scala.collection.mutable.HashMap 
[String, String] 

4. 

5 private[this] var userSuppliedContext: Option[SparkContext] = None 

6 

7 private[spark] def sparkContext (sparkContext: SparkContext): Builder 
= synchronized { 

8. userSuppliedContext = Option (sparkContext) 

9 this 

10. } 

Ek 

2 Ke 


ee * 为 应 用 程序 设置 一 个 名 称 ， 应 用 名 称 将 在 Spark Web UI 中 显示 。 如 果 没 有 设置 应 
* 用 程序 名 称 ， 将 使 用 随机 生成 的 名 称 


14. 

TL5e * @since 2.0.0 

16. pi 

ee def appName (name: String): Builder = config("spark.app.name", name) 
Ls 

39< Ke 


= 


中 篇 “商业 案例 








* 设置 配置 选项 ， 配 置 的 选项 集 将 自动 应 用 到 sparkconf 和 sparksession 自身 的 配置 中 


* @since 2.0.0 


bd 


def config (key: String, value: String): Builder = synchronized { 
options += key -> value 
this 

} 


/** 
* 设 置 配置 选项 ， 配 置 的 选项 集 将 自动 应 用 到 sparkconf 和 sparksession 自身 的 配置 中 


* @since 2.0.0 


号 


def config (key: String, value: Long): Builder = synchronized { 
options += key -> value.toString 
this 

} 


/** 
* 设 置 配 置 选 项 ， 配 置 的 选项 集 将 自动 应 用 到 sparkconf 和 sparksession 自身 的 配置 中 
* 


* @since 2.0.0 
*/ 
def config (key: String, value: Double): Builder = synchronized { 
options += key -> value.toString 
this 
. 


/** 
* 设置 配置 选项 ， 配 置 的 选项 集 将 自动 应 用 到 sparkconf 和 sparksession 自身 的 配置 中 


来 
* @since 2.0.0 
*/ 
def config(key: String, value: Boolean): Builder = synchronized { 
options += key -> value.toString 
this 
} 


/** 


* 根 据 给 出 的 sparkconf 设置 列表 选项 的 配置 
* 


* @since 2.0.0 

el 

def config(conf: SparkConf): Builder = synchronized { 
conf.getAll.foreach { case (k, v) => options += k -> V } 
this 

} 


/** 


* 设 置 Spark master URL 链接 ， 如 local 为 本 地 运行 ，local[ 4 ] 为 在 本 地 运行 4 
* 个 核 ，spark://master:7077 运行 在 Spark standalone cluster 集群 
来 


* @since 2.0.0 
全/ 


def master (master: String) : Builder = config("spark.master", master) 


/** 


* 提供 Hive 的 支持 ， 包 括 Hive 元 数据 Hive metastore 的 持久 化 连接 ， 支 持 Hive 
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* ”的 用 户 自 定义 函数 


80 . be 

81. * @since 2.0.0 

S2> */ 

83. def enableHiveSupport(): Builder = synchronized { 
84. if (hiveClassesArePresent) { 

BD config (CATALOG IMPLEMENTATION.key, "hive") 

86. } else { 

87. throw new IllegalArgumentException( 

88 . "Unable to instantiate SparkSession with Hive support because "+ 
89 . "Hive classes are not found.") 

90 . } 

3 } 

925 

93- /** 

94. 


Spark 2.2.0 版 本 的 SparkSession.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 新 增 
了 SparkSessionExtensions 的 实例 构建 。 
2 ET val extensions = new SparkSessionExtensions 
SparkSessionExtensions 是 实验 性 质 的 ， 是 [SparkSession] 的 注入 点 ， 这 里 我 们 对 二 进 制 兼 
容 性 和 方法 源 兼 容 性 的 稳定 不 做 任何 保证 。 
SparkSessionExtensions 提供 以 下 扩展 点 : 
Analyzer Rules: 分 析 器 规则 。 
Check Analysis Rules: 检查 分 析 规 则 。 
Optimizer Rules: 优化 器 规则 。 
Planning Strategies: 计划 策略 。 
Customized Parser: 自 定义 解析 器 。 
(External) Catalog listeners: 〔 外 部 ) 目录 监听 器 。 
SparkSessionExtensions 扩展 可 以 在 [SparkSession.Builder] 中 调用 withExtension， 例 如 : 


OOOOODODO 


“Ie SparkSession.builder() 

二 mostor (se 

E 二 CONnEC ee trusy 

?A .withExtensions { extensions => 

5 extensions.injectResolutionRule { session => 
6 i 

i } 

:加 extensions.injectParser { (session, parser) => 
:局 

10. } 

人 } 

人 .getOrCreate () 


注意 ， 没 有 注入 的 builders 应 该 假设 [SparkSession] 是 完全 初始 化 的 ， 不 应 接触 会 话 的 内 
部 〈 如 会 话 状态 ) 。 
(2) SparkSession Builder 中 配置 信息 完成 以 后 ， 返 回 的 是 Builder 数据 类 型 。 在 Builder 
中 调用 getOrCreate 方法 ， 如 果 已 有 SparkSession， 就 返回 已 有 的 SparkSession; 如 果 没 有 
SparkSession， 就 新 建立 一 个 sparksession， 返 回 SparkSession 数据 类 型 的 实例 ， 在 新 建 的 
SparkSession 中 创建 SparkContext。 

















:2 
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Spark 2.1.1 版 本 的 SparkSession.scala 的 getOrCreate 方法 的 源码 如 下 。 


1. * 获取 已 有 的 [SparkSession]， 如 果 不 存在 ， 根 据 Builder 的 配置 参数 创建 一 个 新 的 
* SparkSession。 该 方法 首先 检查 是 否 有 一 个 有 效 的 本 地 线程 SparkSession， 如 果 已 有 
* SparkSession, 则 返回 SparkSession, 然后 检查 是 否 有 有 效 的 全 局 默认 SparkSession， 
* 如 果 有 ， 则 返回 SparkSession。 如 果 没 有 有 效 的 全 局 默认 SparkSession， 该 方法 创建 一 
* 个 新 的 SparkSession 和 分 配 新 创建 的 SparkSession 为 全 局 默认 值 。 如 果 返 回 一 个 已 有 的 
* SparkSession，Builder 的 配置 参数 将 应 用 到 已 有 的 SparkSession 

2. * esince 2.0.0 


3 

4. def getOrCreate(): SparkSession = synchronized { 

5 // 从 当前 线程 的 活动 会 话 中 获取 会 话 

< Var session = activeThreadSession.get() 

he if ((session ne null) && !session.sparkContext.isStopped) { 

:入 options .foreach { case (k, v) => session.sessionState.conf. 

setConfstring(k, v) } 

9 if (options.nonEmpty) { 

10% logWarning ("Using an existing SparkSession; some configuration 
may not take effect.") 

TL- 1 

2 return session 

13- } 

14. 

5 // 全 局 同步 变量 ， 只 设置 一 个 默认 会 话 

号 SparkSession.synchronized { 

a // 如 果 本 地 现场 没有 会 话 ， 则 从 全 局 会 话 中 获取 会 话 

和 8 session = defaultSession.get() 

19. if ((session ne null) && !session.sparkContext.isStopped) { 

205 options .foreach { case (k，v) => session.sessionState.conf. 
SetConfString(k，v) } 

ZE if (options.nonEmpty) { 

22s logWarning ("Using an existing SparkSession; some configuration 

may not take effect.") 

3 } 

24. return session 

25. } 

2 

2 // 如 果 没 有 全 局 默认 会 话 ， 就 创建 一 个 新 的 会 话 

28- val sparkContext = userSuppliedContext.getOrElse { 

29. // 如 果 没 有 应 用 名 ， 则 设置 一 个 应 用 名 

30 . val randomAppName = java.util.UUID.randomUUID() .toString 

3 val sparkConf = new SparkConf () 

3 options.foreach { case (k, v) => sparkConf.set(k, v) } 

二 3 if (!sparkConf.contains ("spark.app.name")) { 

345 sparkConf .setAppName (randomAppName) 

3 } 

36. val sc = SparkContext .getOrCreate (sparkConf) 

S78 // 已 有 的 SparkContext， 更 新 SparkConf 配置 参数 

338 options .foreach { case (k, v) => sc.conf.set(k, v) } 

39 . if (!sc.conf.contains("spark.app.name")) { 

40. sc.conf.setAppName (randomAppName) 

Te } 

Ck 3 

43. 

44. session = new SparkSession(sparkContext) 

对 options.foreach { case (k, vV) => session.sessionState.conf. 

setConfString(k, v) } 
46. defaultSession.set (session) 


.504 
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// 注 册 SparkListener 异常 监听 器 
sparkContext .addSparkListener (new SparkListener { 
override def onApplicationEnd(applicationEnd: SparkListener 
ApplicationEnd): Unit = { 
defaultSession.set (null) 
sqlListener.set (null) 
} 
}) 
| 


return session 


Spark 2.2.0 版 本 的 SparkSession.scala 的 getOrCreate 方法 的 源码 与 Spark 2.1.1 版 本 相 比 具 
有 如 下 特点 : 新 增 扩 展 的 处 理 : 如 果 用 户 定义 了 一 个 配置 器 类 进行 初始 化 扩展 。 


wooaarp 





// 如 果 用 户 定义 了 一 个 配置 器 类 ， 就 进行 初始 化 扩展 
val extensionConfOption = sparkContext.conf.get(StaticsQLConf. 
SPARK SESSION EXTENSIONS) 
if (extensionConfOption.isDefined) { 
val extensionConfClassName = extensionConfOption.get 
try { 
val extensionConfClass = Utils.classForName (extensionConfClassName) 
Val extensionConf = extensionConfClass.newInstance() 
.asInstanceOf [SparkSessionExtensions => Unit] 
extensionConf (extensions) 
beateh lt 
// 如 果 找 不 到 类 或 类 型 错误 时 ， 则 忽略 错误 
case e @ (_: ClassCastException | 
: ClassNotFoundException | 
: NoClassDefFoundError) => 
logWarning(s"Cannot use $extensionConfClassName to configure 
session extensions.", e) 
1 
} 


session = new SparkSession(sparkContext, None, None, extensions) 


(3) 在 Spark 2.0 版 本 中 ，SparkSession 的 统一 入 口 使 用 hiveContext， 调 用 enableHive 
Support 方法 提供 对 Hive 的 支持 。 使 用 Hive 时 ， 必 须 实例 化 SparkSession 提供 对 Hive 的 支 
持 ， 包 括 Hive 元 数据 、Hive metastore 的 元 数据 的 持久 连接 、 支 持 自 定义 函数 功能 和 Hive 序 
列 化 。 代 码 如 下 。 


Dp 


oA 


Val conf = sys.env.get ("SPARK AUDIT MASTER") match { 


case Some (master) => new SparkConf () .setAppName ("Simple Sql App"). 
setMaster (master) 
case None => new SparkConf () .setAppName ("Simple Sql App") 


val sc = new SparkContext (conf) 
val sparkSession = SparkSession.builder 


-enableHiveSupport () 
-getOrCreate () 


= Ms 
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下 面 看 一 下 在 SparkSession 中 执行 Spark 的 SQL 查询 的 示例 。 在 Spark 中 执行 spark.sql0 


语句 返 





执 
CY 


用 spark.sql.dialect 方言 来 解析 SQL 语句 。 





回 的 结果 类 型 是 DataFrame， 对 SQL 中 的 语句 进行 解析 时 ，Spark SQL 解析 器 默认 使 


行 Spark 的 SQL 查询 示例 的 具体 实现 方法 如 下 。 
) 设置 spark.sql.warehouse.dir。 作 为 Windows 用 户 ， 由 于 不 同 的 文件 前 级 跨 操作 系统 ， 





为 避免 潜在 错误 前 级 的 问题 ， 当 启动 sparksession 时 ，Spark 目前 的 解决 方法 是 指定 
spark.sql.warehouse.dir。 这 里 我 们 设置 spark.sql.warehouse.dir 为 本 地 文件 目录 的 绝对 路 径 。 


(2 
语句 创 
(3 


) 使 用 spark.sql("CREATE TABLE IF NOT EXISTS src(key INT, value STRING)")SQL 
建 一 个 表 src， 表 中 包括 key 及 value 两 个 字段 。 
) 使 用 spark.sql("LOAD DATA LOCAL INPATH 'data/peoplemanagedata/kv1.txt' INTO 


TABLE sre") 加 载 外 部 相对 目录 中 kvl:txt 的 文本 文件 中 的 数据 。v1.txt 文本 文件 的 数据 内 容 
(Key Value) 键 值 对 如 下 。 


ss 
2 
全 
4. 
i 


(4 
在 


上 Fo wm 必 wN 


卢 
ID 


了 3 


在 


光 


a0. 


238 val 238 
86 val 86 
311 val 311 
人 
165 val 165 


) 使 用 spark.sql("SELECT * FROM src").show 查询 出 表 src 的 内 容 进行 展示 。 
SparkSession 中 执行 Spark SQL 语句 的 代码 如 下 。 


package com.dt.spark.cores 
import org.apache.spark.SparkConf 
import org.apache.spark.sql.{Row, SparkSession} 
object HiSpark { 
case class Person (name: String, age: Long) 
def main (args: Array[String]) { 
val conf = new SparkConf () .setMaster ("local[3]") .setAppName ("HiSpark") 
val spark = SparkSession 
.builder() 
-Config(conf) 
.config("spark.sql .warehouse.dir",G:\\IMFBigDataSpark2017\\SparkApps 
\\spark-warehouse") 
.enableHiveSupport () 
.getOrCreate () 
spark.sql ("CREATE TABLE IF NOT EXISTS src(key INT, value STRING) ") 
spark.sql ("LOAD DATA LOCAL INPATH 'data/peoplemanagedata/kv]1.txt' 
INTO TABLE src") 
spark.sql ("SELECT * FROM src") .show () 
spark.sql ("SELECT COUNT (*) FROM src") .show() 
} 
oh 


IDEA 中 运行 代码 ， 在 SparkSession 中 执行 Spark SQL 语句 ， 输 出 结果 如 下 。 


Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 

17/03/13 20:50:46 INFO SparkContext: Running Spark version 2.1.0 
17/03/13 20:51:04 INFO SparkSqlParser: Parsing command: SELECT COUNT (*) 
FROM src 
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二 十 
6 Ikey| valuel 
yA 十 
8 12381val 2381 
9 | 861 val 861 


18. 12651val 2651 
19. 11931val_1931 
20. 14011val_ 4011 
21. 11501val_ 1501 





24. 13691val 3691 
25. | 66| val 661 
26. 11281val 1281 
2 wat 213l 





D2 = 下 
35. | 2500] 
255 === 


.3.3 ”DataFrame、DataSet 剖析 与 实战 


Spark 2.0 基于 DataSet 实现 开发 ，Spark 2.0 DataSet 背后 会 被 Tungsten 优化 ， 而 这 里 面 


会 采用 Whole-Stage Code Generation 的 技术 ， 所 以 出 错时 定位 错误 和 调 优 非 常 困 难 。 例 如 ， 


for 


优 ， 


循环 翻译 成 了 自己 的 方式 ， 出 错 的 话 ， 错 误 信息 定位 就 非常 困难 ， 生 产 环境 面临 错误 和 调 
搞 不 定 了 还 是 要 用 RDD， 因 此 ，RDD 是 万 能 的 ， 基 于 RDD 的 Spark CORE 是 王道 。 
Spark 2.0 DataSet 的 类 型 : 

口 SQL 是 无 类 型 的 : 例如 ， 写 的 SQL 语法 ， 数 据 类 型 是 否 对 ， 列 是 否 不 存在 ， 这 些 在 
编写 SQL 语句 的 时 候 判 定 不 出 来 。 只 有 运行 时 才能 发 现 是 什么 问题 。 

口 DataFrame 是 弱 类 型 的 ， 相当 于 DataSet[Row]，DataFrame 其 实 就 是 一 张 表 ， 如 在 表 
中 声明 一 些 列 ， 但 实际 运行 中 其 中 一 些 列 不 存在 值 ， 是 弱 耦 合 的 。 

口 DataSet 是 强 类 型 的 : 必须 严格 声明 ， 而 且 类 型 要 匹配 ， 在 编译 时 期 就 决定 了 数据 类 
型 是 否 准确 。 

从 Spark 2.2 开始 , Spark 不 再 支持 Python; Spark 2.2 DataSet 大 部 分 使 用 Scala 语言 开发 ; 


Java 主要 是 DataFrame 开发 。 因 此 ， 从 Spark 2.2 开始 ， 编 程 语 言 逐 渐 转 向 Scala 语言 开发 。 


这 中 











已 ，Spark 2.0 ”DataSet 开发 实战 中 ， 我 们 使 用 Scala 开发 。 
接 下 来 ， 我 们 看 一 个 DataFrame、DataSet 使 用 的 代码 示例 ， 具 体 实现 如 下 。 


“0 
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(1) 定义 Person 的 case class 类 ， 包 括 姓 名 、 人 年龄 。 

(2) 通过 spark.read.json 读 入 people.json 格式 文件 ， 生 成 persons 的 DataFrame。 
(3) 在 DataFrame 中 通过 as 方法 转换 为 Dataset[Person]。 

(4) 打印 展示 Dataset 的 结果 和 结构 。 





package com.dt.spark.cores 
import org.apache.spark.SparkConf 
import org.apache.spark.sql.{DataFrame, Row, SparkSession} 
object HiSpark { 
case class Person(name: String, age: Long) 
def main(args: Array[String]) { 
val conf = new SparkConf () .setMaster ("local[3]") .setAppName ("HiSpark") 
val spark = SparkSession 
-builder() 
-Config(conf) 
-Config("spark.sql.warehouse.dir"， "G:\\IMFBigDataSpark2017\\SparkApps 
\\spark-warehouse") 
.enableHiveSupport () 
.getOrCreate () 
import spark.implicits. 
import org.apache.spark.sql.functions. 
val persons = spark.read.json("data/peoplemanagedata/people.json") 
val personsDS = persons .as [Person] 
PersonsDS .show () 
PersonsDS .PrintSchema () 
val personsDF = personsDS .toDF () 
} 


在 IDEA 中 运行 代码 ，DataFrame、DataSet 代码 示例 的 输出 结果 如 下 : 


: 


了 
二 6 
dR 


Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 
17/03/13 20:58:20 INFO SparkContext: Running Spark version 2.1.0 


17/03/13 20:58:38 INFO CodeGenerator: Code generated in 30.13774 ms 


lagel namel 
JEE=T======= 十 
| 161Michaell 
| 301 Andyl 
| 191 Justinl 
| 291 Justinl 
| 461Michaell 


。 十 -一 -二 一 一 一 一 一 一 十 


root 
1-- age: long (nullable = true) 
1-- name: string (nullable = true) 


在 上 述 DataFrame、DataSet 示例 代码 中 , 通过 as 方法 将 DataFrame 转换 为 DataSet 结构 。 


下 面 看 一 


: 


下 as 方法 的 源码 。 在 Spark 2.2 中 ，DataFrame 类 型 是 Dataset[Row] 的 别名 。 


type DataFrame = Dataset [Row] 


查看 Dataset.scala 框架 源码 as 方法 ， 将 DataFrame 转换 为 DataSet 数据 结构 。 


ds 


“SB 


实验 性 的 : : 
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当 每 个 记录 映射 到 标识 的 类 型 的 时 候 ，as 方法 将 依赖 范 型 0 的 类 型 来 转换 列 。 
- 当 T 是 一 个 类 ， 类 的 字段 将 被 映射 到 同名 的 列 。 大 小 写 敏 感度 由 spark. sql. 
caseSensitive 配置 决定 。 
- 当 是 一 个 元 组 ， 列 将 按 序 号 映射 〈 例 如 ， 第 一 列 将 被 分 配 到 1) 。 
一 当 可 是 一 个 原始 类 型 (如 String 字符 串 、Int 整 型 等 ) ， 那 么 第 一 列 将 被 DataFrame 
使 用 。 
如 果 数 据 集 的 结构 与 所 需 的 上 类 型 不 匹配 ， 可 以 使 用 select 与 alias 或 as 重新 排列 或 重 
命名 
Q@group basic 
@since 1.6.0 


. 


@Experimental 
@InterfaceStability.Evolving 


:hh def as[U : Encoder]: Dataset[U] = Dataset[U] (sparkSession, logicalPlan) 


其 中 ， 
: 
各 浊 
三 避 罕 
4. 
5 来 


来 
素 
素 
素 
* 
六 
* 
Te 
* 
* 
* 
* 
* 
* 
* 
来 
六 
* 


U : Encoder 的 源码 解析 如 下 。 
水 
: : 实验 性 的 : : 
用 于 将 一 个 UVM 对 象 类 型 了 使 用 Spark SQL 表示 * 
== Scala == 
通过 sparksession 的 隐 式 转换 ， 编 码 器 可 以 自动 创建 ， 或 者 也 可 以 调用 静态 方法 
[Encoders] 显 式 创建 
(RR 
import spark.implicits._ 
val ds.="Seq(1; 27 3)=toDS() 
/ 隐 式 转换 为 Dataset [Int] 类 型 (spark.implicits.newIntEncoder) 
ba 


== Java == 
编码 器 调用 静态 方法 [Encoders] 
Cat 


List<String> data = Arrays.asList ("abc", "abc", "xy2z"); 


Dataset<String> ds context .createDataset (data，Encoders .STRING () ) ; 
16 . 9 
了 7 
18. * 编码 器 可 以 使 用 元 组 
195 
20. A 
2 Encoder<Tuple2<Integer, String>> encoder2 = Encoders.tuple (Encoders . 
INT(), Encoders.STRING()); 
2 List<Tuple2<Integer, String>> data2 = Arrays.asList (new scala.Tuple2(1, 
nan) 
23. * Dataset<Tuple2<Integer，String>> ds2 = context.createDataset (data2, 
*encoder2); 
4 
5 
26. * 或 者 采用 JAVA Bean 来 构建 编码 格式 
2 
ZB wo 
29. * Encoders .bean (MyClass.class); 
S05 wT 
SE ey 
32. * == 实现 一 
来 


编码 器 不 需要 是 线程 安全 的 ， 因 此 不 需要 使 用 锁 来 保护 。 针 对 并 发 访问 ， 编 码 器 重用 内 部 组 


“Ns 
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* 冲 区 来 提高 性 能 


* @since 1.6.0 


A 


- @Experimental 实验 性 的 


. QInterfaceStability.Evolving 演进 
. @implicitNotFound ("Unable to find encoder for type stored in a Dataset. 


Primitive types "+ 
"(Int, String, etc) and Product types (case classes) are supported by 
nporting 十 
"spark.implicits. Support for serializing other types will be added 
in future " + 
"releases.") 


. trait Encoder [T] extends Serializable { 


/** 返 回 行 的 编码 格式 */ 
def schema: StructType 


/** 

* ClassTag 构建 包含 T 类 型 的 数组 集合 
*/ 

def clsTag: ClassTag[T] 


5 


入 入 


13.4 通过 map、flatMap、mapPartitions 等 分 析 
企业 人 员 管 理 系统 


本 节 通 过 map、flatMap、mapPartitions 等 分 析 企 业 人 员 管 理 系统 。 企 业 人 员 管 理 系 统 应 
用 案例 中 的 企业 人 员 信 息 包括 姓名 、 年 龄 数据 信息 。 在 企业 人 员 管 理 系 统 中 ， 需 对 企业 人 员 


的 年 龄 进 


行 统计 分 析 ， 如 估算 员工 10 年 以 后 的 工资 数值 等 ,涉及 对 员工 的 年 龄 进行 计算 。 我 


们 可 以 使 用 map、flatMap、mapPartitions 来 实现 。 

【 例 13-1】map 算 子 解析 。 

使 用 map 算 子 将 personDS DataSet 转换 为 Dataset[(String, Long)] 类 型 , 其 中 年 龄 值 加 100， 
生成 姓名 、 年 龄 元 组 类 型 的 DataSet。 


i 
及 
3 


PersonsDS .map { person => 
(person.name, person.age + 100L) 
}.show() 


在 IDEA 中 运行 代码 ，map 算 子 示例 的 输出 结果 如 下 。 


Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults . 
properties 
17/03/14 12:32:41 INFO SparkContext: Running Spark version 2.1.0 


1Michael11161 
| Andy 11301 
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| Justin11191 
| Justin11291 
1Michae1l11461 


【 例 13-2】flatMap 算 子 解析 。 


使 


其 他 员 


二 
2 
| 
4 











flatMap 算 子 对 personDS 进行 转换 ， 模 式 匹配 如 果 姓 名 为 Andy， 则 年 龄 加 上 70， 





[年 龄 加 上 30。 


PersonsDS .flatMap (Persons => persons match { 





case Person (name，age) if (name == "Andy") => List((name，age + 70)) 
case Person (name，age) => List((name, age+30)) 
}) .show() 


在 IDEA 中 运行 代码 ，flatMap 算 子 示例 的 输出 结果 如 下 。 


: 


co~awm 必 ww 


Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults. 
properties 
17/03/14 21:17:57 INFO SparkContext: Running Spark version 2.1.0 
17/03/14 21:18:07 INFO DAGScheduler: Job 2 finished: show at DatasetOps. 
scala:77, took 0.345143 s 


IMichael| 461 
| Andy 11001 
| Justin| 491 
| Justin| 591 
IMichael| 761 


。+------- 十 -一 -十 


【 例 13-3 】mapPartitions 算 子 解析 。 

使 用 mapPartitions 算 子 对 personDS 执行 mapPartitions 算 子 ， 对 于 每 个 分 区 的 记录 集合 ， 
循环 遍历 persons 记录 集 ， 如 persons 有 元 素 ， 则 将 姓名 、 年 龄 值 加 上 1000 组 成 的 元 组 值 加 
入 到 ArrayBuffer 列表 ， 最 终 返 回 result.iterator 的 值 。 


PersonsDS .mapPartitions { persons => 
val result = ArrayBuffer[ (String, Long)]() 
while (persons.hasNext) { 
Val person = persons .next() 
result += ((person.name, person.age + 1000) ) 
}: 


result.iterator 


}.show 


在 IDEA 中 运行 代码 ，mapPartitions 算 子 示例 的 输出 结果 如 下 。 


EE 


2 
Si 


Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults . 
properties 
17/03/14 14:46:04 INFO SparkContext: Running Spark version 2.1.0 
17/03/14 14:46:15 INFO DAGScheduler: Job 3 finished: show at DatasetOps. 
Sealas67 took O0109253 3 


人 
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7T. +------- 十 一 一 一 一 十 
8. 1IMichael110161 
| Andy 110301 


10. | Justin110191 
11. | Justin110291 
12. 1IMichael1110461 
三 三 三 + 一 一- 十 


13.5 通过 dropDuplicate、coalesce、repartition 等 
分 析 企 业 人 员 管 理 系统 


本 节 通 过 dropDuplicate、coalesce、repartition 等 分 析 企 业 人 员 管 理 系统 。 企 业 人 员 管 理 
系统 应 用 案例 中 的 企业 人 员 信 息 包 括 姓名 、 年 龄 数据 信息 。 在 企业 人 员 管 理 系统 中 ， 可 能 需 
对 人 员 信 息 中 重 名 的 记录 进行 清除 。Spark 2.0 计算 的 时 候 ， 我 们 也 可 以 使 用 coalesce、 
Iepartition 重新 对 人 员 信 息 数据 记录 进行 分 区 。 

【 例 13-4】dropDuplicate 算 子 解析 。 

使 用 dropDuplicate 算 子 删除 重复 元 素 , 例如 , 使 用 personDS.dropDuplicates("name").show 
pt 重复 员工 的 记录 ， 之 前 people.json 文本 文件 中 包含 重复 的 两 条 姓名 为 Justin 的 记 

; 去 重 以 后 结 果 只 保留 -条 记录 。 


1. println ("使 用 dropDuplicate 算 子 统计 企业 人 员 管理 系统 姓名 无 重复 员工 的 记录 : ") 
全 二 personsDS .dropDuplicates ("name") .show() 

在 IDEA 中 运行 代码 ，dropDuplicate 算 子 示例 的 输出 结果 如 下 。 

1 人 和 的 算 子 统计 企业 人 员 管 理 系统 姓名 无 重复 员工 的 记录 : 
2. +---+------ 一 

3. lage 1 name i 

4. +- 一 二 -一 一 一 -一 一 4 

本 | 161Michael1 

6 1 301 Andy| 

这 | 191 Justin1 

8 en en 4 


dropDuplicate 算 子 与 distinct 算 子 比较 :distinct 算 子 是 从 Dataset 中 返回 一 个 新 的 数据 集 ， 
新 的 数据 集中 包含 唯一 的 es distinct 是 dropDuplicates 的 别名 。 ee 中 包含 两 条 同 
名 员工 Justin 的 记录 ， 其 年 龄 分 别 为 19 岁 、29 岁 ， 因 为 姓名 、 年 龄 组 合 的 数据 不 重复 ， 所 
示 两 条 记录 都 打印 输出 。 


: PersonsDS.distinct() .show() 

在 IDEA 中 运行 代码 ，distinct 算 子 示例 的 输出 结果 如 下 。 
1. +---+--- 一 -一 + 

2 a name | 

3. +---+------ 一 + 

| A ee 

5. | 30| Andy | 

6 | 191 Justinl 

计 | 161Michaell 
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Be 29I SC 
和 = 一 四 


【 例 13-$】repartition 算 子 解析 。 

使 用 repartition 算 子 重新 设置 personsDS 的 分 区 数 ， 将 之 前 的 1 个 分 区 调整 为 4 个 分 区 。 
1. println(" 使 用 repartition 算 子 设置 分 区 : ") 

> println(" 原 分 区 数 : "+personsDS .rdd.partitions.size) 

< val repartitionDs = personsDS .repartition(4) 

a println ("repartition 设置 分 区 数 ， "+repartitionDs.rdd.partitions.size) 

















在 IDEA 中 运行 代码 ，repartition 算 子 示例 的 输出 结果 如 下 。 


1. 使 用 repartition 算 子 设 置 分 区 : 
2.。 原 分 区 数 : 1 
3. ” repartition 设置 分 区 数 : 4 


【 例 13-6】coalesce 算 子 解析 。 
把 很 大 的 分 区 变 成 很 小 的 分 区 使 用 coalesce 算 子 。 例如， 把 10 000 个 分 区 变 成 100 个 分 
区 。 其 他 情况 如 把 很 小 的 分 区 变 成 很 大 的 分 区 使 用 repartition。 不 管 是 把 分 区 数 变 多 ， 还 是 变 
少 ，repartition 都 会 产生 shuffle。coalesce 算 子 在 Spark 集群 中 是 符合 它 的 分 区 数 的 ， 但 在 本 
地 有 一 点 问题 ， 这 里 的 分 区 数 仍 为 1。 
Println (" 使 用 coalesce 算 子 设置 分 区 : ") 
val coalesced = repartitionDs.coalesce (2) 


;1 
这 
s 网 println ("coalesce 设置 分 区 数 ， "+ coalesced.rdd.partitions.size) 
4 coalesced.show 


在 IDEA 中 运行 代码 ，coalesce 算 子 本 地 模式 运行 的 输出 结果 如 下 。 


1. 使 用 coalesce 算 子 设置 分 区 : 
2. ” coalesce 设置 分 区 数 : 1 
3. +---+------- + 

4. lagel name | 

5. +---+------- + 

6. | 161Michaell 

7. | 30| Andy| 

Boi i sustinl 

9 1 29 Justinl 

10. | 461Michaell 
和 4 
coalesce 算 子 源码 解析 如 下 。 
1 


2 * 返回 一 个 新 的 数据 集 ， 这 个 新 的 数据 集 有 numpartitions 个 分 区 。 在 RDD 中 也 有 相似 的 
* coalesce 定义 。coalesce 算 子 操作 的 结果 应 用 于 罕 依 赖 中 ， 将 1000 个 分 区 转换 成 100 个 
* 分 区 ， 这 个 过 程 不 会 发 生 shuffle， 相 反 ， 如 果 10 个 分 区 转换 成 100 个 分 区 ， 将 会 发 生 
* Shuffle 
* 

* @group typedrel 

* @since 1.6.0 

ei 

def coalesce (numPartitions: Int): Dataset[T] = withTypedPlan { 
Repartition (numPartitions, shuffle = false, logicalPlan) 


cv aow 必 mw 


人 
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13.6 通过 sort、join、joinWith 等 分 析 企 业 人 员 管 理 系 统 





本 节 通 过 sort、join、joinWith 算 子 分 析 企 业 人 员 管理 系 统 。 企 业 人 员 管 理 系统 应 用 案例 
中 的 企业 人 员 信息 包括 姓名 、 年 龄 数据 信息 。 在 企业 人 员 管 理 系统 中 ， 需 对 人 员 信 息 中 的 年 
龄 进行 排序 ， 将 企业 人 员 信 息 记 录 和 企业 人 员 评 分 数据 进行 关联 ， 查 询 企业 人 员 的 年 龄 、 姓 
名 及 评分 数据 信息 。 

【 例 13-7】sort 算 子 解析 。 

使 用 sort 算 子 对 personDS 按 年 龄 进行 降序 排列 。 

是 Println (" 使 用 sort 算 子 对 年 龄 进行 降序 排列 : ") 


PersonsDS.sort ($"age" .desc) .show 


在 IDEA 中 运行 代码 ，sort 算 子 示例 的 输出 结果 如 下 。 
使 用 sort 0 


+ 一 一 二 一 一 一 一 一 一 一 
| 92 | name i 





| 46 ee 1 
| 30| Andy| 
| 291 Justinl 
| 191 Justinl 
| 161Michaell 


oawm 必 wm 


【 例 13-8】join 算 子 解 析 。 
使 用 join 算 子 将 数据 集 根 据 提 供 的 表达 式 进行 关联 。 


Println(" 使 用 join 算 子 关联 企 业 人 员 信 息 、 企 业 人 员 分 数 评分 信息 : ") 


2 personsDS.join (personScoresDS, S$"name" === $"n").show 
在 IDEA 中 运行 代码 ，join 算 子 示例 的 输出 结果 如 下 。 
使 用 jin A 企业 人 员 分 数 评分 信息 : 





ee name i n | 
人 人 十 
| 161Michael1Michaell 881 
1 301 Andy| Andy | 100| 
| 191 Justin| Justin| 89| 
| 291 Justin| Justin| 891 
| 461Michael1Michaell 881 
Le es +- 一 一 一 一 + 


【 例 13-9】joinWith 算 子 解析 。 

使 用 joinWith 算 子 对 数据 集 进行 内 关联 , 当 关 联 的 姓名 相等 时 , 返回 一 个 tuple2 键 值 对 ， 
格式 分 别 为 年 龄 ， 姓 名 及 姓名 ， 评 分 。 

a println ("使 用 joinWwith 算 子 关联 企业 人 员 信息 、 企 业 人 员 分 数 评分 信息 : ") 

0 


PersonsDS .joinWith (personScoresDS, S$ "name" 一 = $"n") .show 


Poco~awm 必 wwN 
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在 IDEA 中 运行 代码 ，joinWith 算 子 示例 的 输出 结果 如 下 。 
使 用 joinwith 算 子 关联 企业 人 员 信息 、 企 业 人 员 分数 评 分 信息 : 
十 


二 -一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 
1 二 2 


1[16,Michael] | [Michael, 88]| 
1 [30,Andy] | [Andqy,100] 1 
| [19,Justin]| [Uustin,89]1 
| [29,Justin]| [Justin,89]1 

1[46,Michael] | [Michael, 88]| 
0. +------- 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 + 


Focwwawm 必 wm 


13.7 通过 randomSplit、sample、select 等 分 析 
企业 人 员 管 理 系统 


本 节 通 过 randomSplit、sample、select 算 子 分 析 企 业 人 员 管 理 系统 。 企 业 人 员 管 理 系 统 
应 用 案例 中 的 企业 人 员 信 息 包括 姓名 、 年 龄 数据 信息 。 在 企业 人 员 管 理 系 统 中 ， 可 能 需 对 人 
员 信 息 中 的 人 员 进 行 随机 采样 分 析 。 人 员 信 息 中 如 包括 较 多 的 属性 信息 ， 也 可 通过 投影 选择 
需要 进行 查询 的 属性 进行 展示 。 

【 例 13-10】randomSplit 算 子 解析 。 

使 用 randomSplit 算 子 对 personDS 进行 随机 切 分 。randomSplit 的 参数 weights 表示 权重 ， 
传 入 的 两 个 值 将 会 切 分 成 两 个 Dataset[Person]， 把 原来 的 Dataset[Person] 按 照 权重 10，20 随 
机 划分 到 两 个 Dataset[Person] 中 ， 权 重 高 的 Dataset[Person]， 划 分 的 几率 就 大 。 

1. ”println ("使 用 randomSplit 算 子 进行 随机 切 分 : ") 

2 personsDS .randomSplit (Array (10，20) ) .foreach (dataset => dataset.show()) 

在 IDEA 中 运行 代码 ，randomSplit 算 子 示例 的 输出 结果 如 下 。 

使 用 randomsplit 算 子 进行 随机 切 分 : 


+ 一- 二 -一 一 一 一 一 一 十 


Michael1 
| 291 Justinl 


cam 心 wN 
卢 
cy 


12. | 191 Justinl 

13 1 30 Andy| 

14. | 461Michael1 

ks a ed ae + 

为 体现 随机 性 ， 再 在 IDEA 中 运行 一 次 代码 ， 随 机 切 分 结果 和 上 次 随机 切 分 的 结果 不 一 
样 。randomSplit 算 子 示例 的 输出 结果 如 下 。 


1. 使 用 randomSplit 算 子 进行 随机 切 分 : 





人 
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人 
lagel name | 
和 + 
| 161Michaell 
| 191 Justinl 
| 291 Justinl 
1 301 Andyl 
| 461Michaell 


【 例 13-11】sample 算 子 解析 。 

使 用 sample 算 子 对 personDS 进行 随机 采样 ,第 一 个 参数 tue 表示 有 放 回 去 的 抽样 , false 
表示 没有 放 回 去 的 抽样 ; 第 二 个 参数 为 采样 率 在 0~1 之 间 。 例 如 ，personDS.sample(false, 
0.5).show()。 


;中 println ("使 用 sample 算 子 进行 随机 采样 : ") 


六 personsDS.sample (false，0.5) .show() 

在 IDEA 中 运行 代码 ，sample 算 子 示例 的 输出 结果 如 下 。 
1. 使 用 sample 算 子 进行 随机 采样 : 

2. +---+------ + 

3. lagel namel 

4. +---+- 一 -一 一 一 + 

5 IE9lwastanl 

6. | 291Uustinl 

7. +---+------ 十 


为 体现 随机 性 , 再 在 IDEA 中 运行 一 次 代码 , 结果 和 上 次 随机 取样 的 结果 不 一 样 。sample 
算 子 示例 的 输出 结果 如 下 。 
使 用 sample 算 子 进行 随机 采样 : 
+ 


+ 一 -+ 一 一 一 一 一 一 一 
lagel name | 


| 16IMichael | 

1 30| Andy | 

| 291 Justinl 
中 + 

【 例 13-12】select 算 子 解析 。 

使 用 select 算 子 选择 年 龄 进行 显示 。 


: println ("使 用 select 算 子 选择 列 : ") 


co ~awm 必 wm 


2 PersonsDS .select ("name") .show() 

在 IDEA 中 运行 代码 ，select 算 子 示例 的 输出 结果 如 下 。 
ds 使 用 select 算 子 选择 列 : 

2. +------- 

| name | 

4. +------- 
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5. 1IMichaell 
6. | Andyl 
7 "MJastrnl 
8. | Justinl 
9. |Michael| 
10. +------- + 


13.8 通过 groupBy、agg、col 等 分 析 企 业 人 员 管 理 系统 


本 节 通 过 groupBy、agg、col 算 子 分 析 企 业 人 员 管 理 系统 。 企 业 人 员 管 理 系统 应 用 案例 
中 的 企业 人 员 信 息 包 括 姓 名 、 年 龄 数据 信息 。 在 企业 人 员 管 理 系统 中 ， 需 要 对 企业 人 员 信 息 
的 姓名 、 年 龄 进行 分 组 ， 然 后 使 用 agg 中 的 内 置 函 数 进行 计数 、 最 大 值 、 最 小 值 、 平 均值 等 
各 种 统计 分 析 。 
【 例 13-13】groupBy 算 子 解析 。 
使 用 groupBy 算 子 对 姓名 、 年 龄 进行 分 组 ， 统 计 分 组 后 的 计数 。 
println ("使 用 groupBy 算 子 进行 分 组 : ") 


1 
2 val personsDSGrouped = personsDS.groupBy($"name", $"age") .count () 
1 personsDSGrouped.show () 





在 IDEA 中 运行 代码 ，groupBy 算 子 示例 的 输出 结果 如 下 。 


人 Se 算 子 进行 分 组 : 
Ee pe 
i name a 
WE = + 
| Justin| 291 | 
| Andy| 301 1 1 
IMichael| 161 | 
IMichael| 461 ll 
| Justin| 191 图 
0. +------ a ASEesatva + 


【 例 13-14】agg 算 子 解析 。 
使 用 agg 算 子 concat 内 置 函数 ， 将 姓名 、 年 龄 连接 在 一 起 ， 成 为 单个 字符 串 列 。 
:二 Println (" 使 用 agg 算 子 concat 内 置 函 数 ， 将 姓名 、 年 龄 连接 在 一 起 ， 成 为 单个 字符 串 列 :") 


2 PersonsDS .groupBy ($"name", S$"age") .agg (concat ($"name", $"age")).show 


在 IDEA 中 运行 代码 ，agg 算 子 示例 的 输出 结果 如 下 : 


Fo~awm 必 wm 


i ke agg 和 concat 内 置 函数 ， 将 姓名 、 年 龄 连接 在 一 起 ， 成 为 单个 字符 串 列 : 
2 和 二 生 汪 站 十 

3 . name a Iconcat (name，age) | 

4. +------- 十 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 EF 

5 I Justinl 29l Justin29 | 

6 | Andyl 30] Andy30 | 

7. IMichael| 161 Michael16 | 

8. |IMichael| 461 Michae146 | 

gustinl 190 Justin19 | 

10. +------— 十 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 时 


aUTs 
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【 例 13-15】col 算 子 解析 。 

使 用 col 算 子 选择 personsDS 的 姓名 列 以 及 personScoresDS 的 姓名 列 ， 如 相等 ， 则 进行 
joinWith 关联 。 

1. println ("使 用 col 算 子 选择 列 : ") 


2 personsDS .joinWith (personScoresDS,personsDS .col ("name")=== person 
ScoresDS .col ("n") ) .show 


3 

在 IDEA 中 运行 代码 ，col 算 子 示例 的 输出 结果 如 下 。 
1. 使 用 col 算 子 选择 列 : 

2. +------------ i i 
< | 1 2 
4 和。 十 一 一 一 一 一 一 一 一 一 一 一 一 Se Ee 
5. |[16,Michael] | [Michael,88]| 
6. | [30,Andy] | [andy,100]1 
7. | [19,Justin]| [Justin,89]1 
8. | [29,Justin]| [Justin,89]1 
9. |1[46,Michael] | [Michael,88]| 
10. + 一- 一 一 一 一 一 一 一 一 一 一 ee i 


13.9 通过 collect list、collect set 等 分 析 企 业 人 员 管 理 系统 


本 节 通 过 collect list、collect set 算 子 分 析 企业 人 员 管 理 系统 。 企 业 人 员 管理 系 统 应 用 案 
例 中 的 企业 人 员 信 息 包括 姓名 、 年 龄 数据 信息 。 在 企业 人 员 管 理 系统 中 ， 对 人 员 信 息 中 的 人 
员 进 行 分 组 ， 根 据 人 员 信 息 管理 的 要 求 决定 人 员 集 合 中 重复 的 元 素 的 去 留 。 

【 例 13-16】collect list、collect_set 函数 解析 。 

将 personDS 按 姓名 分 组 ， 然 后 调用 agg 方法 ，collect list 是 分 组 以 后 的 姓名 集合 ， 
collect_set 是 去 重 以 后 的 姓名 集合 。collect_ list 函数 结果 中 包含 重复 元 素 ; collect_set 函数 结 
果 中 无 重复 元 素 。 

1 println ("函数 collect _1ist、collect set 比较 ，collect_1ist 函数 结果 中 包含 重 

复元 素 ， collect_set 函数 结果 中 无 重复 元 素 : ") 









2 PersonsDS .groupBY ($"name") 
5 人 -agg (collect list($"name"), collect set($"name")) 
加 -Show() 


在 IDEA 中 运行 代码 ，collect list、collect set 函数 示例 的 输出 结果 如 下 。 


1. ”函数 collect _ list、collect set 比较 ，collect list 函数 结果 中 包含 重复 元 素 ; 
collect set 函数 结果 中 无 重复 元 素 ; 


2. +------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
< re name |collect list(name) |collect set (name)| 
4. +------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
5. |Michael| [Michael, Michael]| [Michael] | 
6. | Andyl [Andy] | [Andy] | 
7. | Justin| [Justin, Justin]l [Justin] | 
8. +------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


“i 
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13.10 通过 avg、sum、countDistinct 等 分 析 企 业 人 员 管 理 系统 











本 节 通 过 avg、sum、countDistinct 算 子 分 析 企 业 人 员 管 理 系 统 。 企 业 人 员 管 理 系统 应 月 
案例 中 的 企业 人 员 信 息 包括 姓名 、 年 龄 数据 信息 。 在 企业 人 员 管 理 系统 中 ， 对 人 员 信 息 按照 
姓名 进行 分 组 ， 调 用 agg 方法 ， 统 计 分 析 年 龄 总 和 、 平 均 年 龄 、 最 大 年 龄 、 最 小 年 龄 、 唯 一 
年 龄 计数 、 平 均 年 龄 等 人 员 信息 数据 。 

【 例 13-17】sum、avg、max、min、count、countDistinct、mean、current date 函数 解析 。 

将 personDS 按照 姓名 进行 分 组 ， 调 用 agg 方法 ， 分 别 执行 年 龄 求 和 、 平 均 年 龄 、 最 大 年 
龄 、 最 小 年 龄 、 唯 一 年 龄 计数 、 平 均 年 龄 、 当 前 时 间 等 函数 。 




















这 Println(" 使 用 sum、avg 等 函数 计算 年 龄 上 总和、 平均 年 龄 、 最 大 年 龄 、 最 小 年 龄 、 唯 一 
年 龄 计数 、 平 均 年 龄 、 当 前 时 间 等 数据 : ") 
2 personsDS .groupBy ($"name") .agg (sum($"age"), avg($"age"), max($"age"), 


min($"age"), count($"age"),countDistinct($"age"),mean($"age"), 
current date()).show 


在 IDEA 中 运行 代码 ，sum、avg、max、min、count、countDistinct、mean、current_date 





函数 示例 的 输出 结果 如 下 。 

1. 使 用 sum、avg 等 函数 计算 年 龄 总 和 、 平 均 年 龄 、 最 大 年 龄 、 最 小 年 龄 、 唯 一 年 龄 计数 、 平 均 年 
龄 、 当 前 时 间 等 数据 : 

2. +----- ==== i Dn i Sr i i Sr 

< name|sum(age) lavg (age) |max (age) |min (age) |count (age) |count (DISTINCT 
age) lavg (age) |current date()| 

4. +----- A i en pe > 和 < nd 2 

5. |Michaell 621 31.01 461 161 21 2 
31.01 2017=03=T61 

6 Andyl 301 30.01 301 301 1 11 
30.01 2017-03-161 

7. | Uustinl 481 24.01 291 191 21 21 
24.01 2017-03-161 

8. +----— a a ee Ce be re J en Er 
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Spark 2.2 实战 之 Dataset 开发 实战 企业 人 员 管 理 系统 应 用 案例 如 例 13-18 所 示 。 
【 例 13-18】DatasetOps.scala 代码 。 


其 package com.dt.spark.cores 

2 

3. import org.apache.1o0g4j.{Level, Logger} 

4. import org.apache.spark.sql.{Dataset, Encoders, SparkSession} 
je 

6. import scala.collection.mutable.ArrayBuffer 

3 

8. object DatasetOps { 


= 人 和 < 
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case class Person(name: String, age: Long) 


case class Score (D: String, score: Long) 


def main (args: Array[String]) { 

Logger .getLogger ("org") .setLevel (Level .ERROR) 

val spark = SparkSession 
.builder 
-appName ("DatasetOps") .master ("local[4]") 
.config("spark.sql .warehouse.dir", "G:\\IMFBigDataSpark2017\\SparkApps 
\\spark-warehouse") 
.getOrCreate () 


import org.apache.spark.sql.functions. 
import spark.implicits. 


/冰冰 
* Dataset 中 的 tranformation 和 Action 操作 ，Action 类 型 的 操作 有 : 
* show、 collect、first、reduce、take、count 等 
* 这 些 操作 都 会 产生 结果 ， 也 就 是 说 会 执行 逻辑 计算 的 过 程 
*/ 


val personsDF = spark.read.json("data/peoplemanagedata/people.json") 
val personScoresDF = spark.read.json("data/peoplemanagedata/people 
Scores.json") 


val PersonsDS = personsDF.as[Person] 
val personScoresDS = personScoresDF.as[Score] 


println ("使 用 groupBy 算 子 进行 分 组 : ") 
val personsDSGrouped = personsDS.groupBy ($"name", $"age") .count () 
personsDSGrouped. show () 


println ("使 用 agg 算 子 concat 内 置 函 数 ， 将 姓名 、 年 龄 连接 在 一 起 ， 成 为 单个 字符 串 
2 


PersonsDS .groupBy ($"name", $"age") .agg (concat ($"name", $"age")).show 


println ("使 用 col 算 子 选择 列 : ") 
PersonsDS .joinWith (personScoresDS，PpersonsDS .col ("name") === person 
ScoresDS .col ("n") ) .show 


Println(" 使 用 sum、avg 等 函数 计算 年 龄 总 和 、 平 均 年 龄 、 最 大 年 龄 、 最 小 年 龄 、 唯 一 年 
龄 计数 、 平 均 年 龄 、 当 前 时 间 等 数据 : ") 

PersonsDS .groupBy ($"name") .agg (sum($"age"), avg(S"age")， max($"age"), 
min($"age"),count ($"age"),countDistinct ($"age") ,mean ($"age"), current 
date()) .show 


println ("函数 collect list、collect set 比较 , collect list 函数 结果 中 包含 
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重复 元 素 ;， collect set 函数 结果 中 无 重复 元 素 : ") 

personsDS .groupBy ($"name") 
-agg (collect list($"name"), collect set($"name")) 
-Show() 


println(" 使 用 sample 算 子 进行 随机 采样 : ") 
PersonsDS.sample (false，0.-.5) .show() 


println ("使 用 randomSplit 算 子 进行 随机 切 分 : ") 
personsDS.randomSplit (Array(10，20) ) .foreach (qataset => dataset.show()) 
Println(" 使 用 select 算 子 选择 列 : ") 


PersonsDS.select("name") .show() 


println ("使 用 joinwith 算 子 关联 企业 人 员 信息 、 企 业 人 员 分 数 评分 信息 : ") 


personsDS .joinWith (personScoresDS, $"name" === S$"n") .Show 


println ("使 用 join 算 子 关联 企业 人 员 信息 、 企 业 人 员 分 数 评分 信息 : ") 


PersonsDS.join (personScoresDS, S$"name" === $"n") .Show 


println ("使 用 sort 算 子 对 年 龄 进行 降序 排列 ，") 


PersonsDS.sort ($"age" .desc) .show 
import spark.implicits . 
def myFlatMapFunction (myPerson: Person，myEncoder: Person) : Dataset 
[Person] = { 
PersonsDS 


} 


PersonsDS .flatMap (persons => persons match { 


case Person (name, age) if (name == "Andy") => List((name, age + 70)) 
case Person (name，age) => List((name, age + 30)) 
}) .show() 


PersonsDS .mapPartitions { persons => 
val result = ArrayBuffer[ (String, Long)]() 
while (persons.hasNext) { 
val person = persons.next () 
result += ((person.name, person.age + 1000)) 
} 


result.iterator 
}.show 


println ("使 用 dropDuplicates 算 子 统计 企业 人 员 管理 系统 姓名 无 重复 员工 的 记录 :") 
personsDS .dropDuplicates ("name") .show () 
personsDS .distinct() .show() 


println ("使 用 repartition 算 子 设置 分 区 : ") 
Println (" 原 分 区 数 : " + personsDS.rdd.partitions.size) 
val repartitionDs = personsDS.repartition(4) 


= 
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102. println ("repartition 设置 分 区 数 : " + repartitionDs.rdd.partitions.size) 
L035 

104. println ("使 用 coalesce 算 子 设置 分 区 : ") 

105. val coalesced: Dataset[Person] = repartitionDs.coalesce(2) 
106. println ("coalesce 设置 分 区 数 : " + coalesced.rdd. partitions.size) 
Us coalesced.show 

108. 

109. spark.stop() 

B10 

TES i 

a , 


13.12 本 章 总 结 





本 章 Spark 2.2 实战 之 Dataset 开发 实战 企业 人 员 管 理 系 统 应 用 案例 着 重 讲解 了 企业 人 员 
管理 系统 在 Spark 2.2 中 的 应 用 ， 通 过 对 Spark 2.2 中 一 系列 算 子 的 阐述 ， 读 者 可 以 举一反三 ， 
触 类 旁 通 ， 从 案例 中 熟练 掌握 Spark 2.2 算 子 的 应 用 。 





= 


第 14 章 Spark 商业 案例 之 电 商 交互 式 分 析 
系统 应 用 案例 


电 商 交互 式 分 析 系 统 应 用 案例 : 在 实际 生产 环境 下 ， 一 般 都 是 以 JEE+Hadoop+ 
Spark+DB(Redis) 的 方式 实现 的 综合 技术 栈 ， 使 用 Spark 进行 电 商用 户 行为 分 析 时 一 般 都 是 交 
互 式 的 ， 什 么 是 交互 式 的 ? 也 就 是 说 ， 公 司 内 部 人 员 《〈 如 营销 部 门人 员 ) 向 按照 特定 时 间 查 
询 访问 次 数 最 多 的 用 户 或 者 购买 金额 最 大 的 用 户 TopN， 这 些 分 析 结 果 对 于 公司 的 决策 、 产 
品 研 发 和 营销 都 是 至 关 重 要 的 ,而且 很 多 时 候 是 立即 想 要 结果 的 , 如 果 此 时 使 用 Hive 去 实现 ， 
可 能 非常 缓慢 (如 ljh) ， 而 在 电 商 类 企业 中 ， 经 过 深度 调 优 后 的 Spark 一 般 都 会 比 Hive 快 5 
倍 以 上 ， 此 时 的 运行 时 间 可 能 就 是 分 钟 级 别 ， 这 个 时 候 就 可 以 达到 即 查 即 用 的 目的 ， 也 就 是 
所 谓 的 交互 式 ， 而 交互 式 的 大 数据 系统 是 未 来 的 主流 ! 

我 们 在 这 里 分 析 电 商用 户 的 多 维度 的 行为 特征 ， 如 分 析 特 定时 间 段 访问 人 数 的 TopN、 
特定 时 间 段 购买 金额 排名 的 TopN、 注 册 后 一 周 内 购买 金额 排名 TopN、 注 册 后 一 周 内 访问 次 
数 排名 Top 等 ， 但 是 这 里 的 技术 和 业务 场景 同样 适合 于 门户 网 站 〈 如 网 易 、 新 浪 等 ) ， 也 同 
样 适合 于 在 线 教育 系统 (如 分 析 在 线 教育 系统 的 学 员 的 行为 ) ， 当 然 也 适用 于 SNS 社交 网 络 
系统 。 


14.1 纯粹 通过 DataSet 进行 电 商 交互 式 分 析 系 统 中 
特定 时 段 访问 次 数 TopN 


14.1.1 电 商 交互 式 分 析 系 统 数据 说 明 
1 电 商 交互 式 分 析 系统 数据 的 来 源 


本 节 的 电 商 交互 式 分 析 系 统 的 数据 ， 由 我 们 编写 模拟 代码 来 生成 。 在 工程 SparkApps 的 
data 目录 下 新 建 sql 目录 ,将 模拟 生成 的 log、user 的 模拟 数据 文件 保存 到 datavsql 目录 下 。log、 
user 的 模拟 数据 文件 的 文件 格式 包括 parquet、json 格式 。 

JSON (JavaScript Object Notation) 是 一 种 轻 量 级 的 数据 交换 格式 ， 是 基于 ECMAScript 
的 一 个 子 集 。JSON 是 存储 和 交换 文本 信息 的 语法 ， 采 用 完全 独立 于 语言 的 文本 格式 ， 类 似 
XML, 但 JSON 比 XML 更 易 解 析 。 

Apache Parquet 是 面向 分 析 型 业务 的 列 式 存储 格式 ， 由 Twitter 和 Cloudera 合作 开发 ， 并 
于 2015 年 5 月 成 为 Apache 顶级 项 目 。Parquet 是 一 种 语言 无 关 列 式 存储 格式 的 文件 类 型 ， 可 
以 适 配 多 种 计算 框架 ， 而 且 不 与 任何 一 种 数据 处 理 框架 绑 定 在 一 起 ， 适 配 多 种 语言 和 组 件 。 

在 本 节 电 商 交 互 式 分 析 系 统 的 编码 实现 中 ， 我 们 使 用 在 生产 环境 系统 中 广泛 运用 的 
JSON、Parquet 文本 格式 ， 通 过 DataSet 进行 电 商 交互 式 分 析 系 统 中 特定 时 段 访问 次 数 TopN 
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的 代码 实战 。 
2. 电 商 交互 式 分 析 系 统 数据 的 格式 说 明 





电 商 交互 式 分 析 系统 的 数据 包含 两 个 数据 文件 : 用 户 信息 、 用 户 访问 记录 。 
先 查看 用 户 信息 的 JSON 格式 描述 信息 。JSON 数据 的 书写 格式 是 : 名 称 / 值 对 。 名 称 / 


值 对 组 合 中 的 “名 称 ” 写 在 前 面 ，" 值 对 " 写 在 后 面 ， 中 间 用 冒号 (: ) 隔 开 ， 用 户 信息 文件 
user.json 的 格式 描述 如 下 。 
Es { "userID": userID-Value, "name": name-Value, "registeredTime": 


registeredTime--Value)} 

用 户 ID/ 值 对 、 用 户 姓名 / 值 对 、 注 册 时 间 / 值 对 

- userID: 用 户 ID。 

- userID-Value : 用 户 ID 的 值 。 

name: 用 户 姓名 。 

=- name-Value: 用 户 姓 名 的 值 。 

- registeredTime: 用 户 注册 时 间 。 
-registeredTime--Value: 具体 注册 时 间 的 值 。 


从 用 户 信息 文件 userjson 中 摘 取 部 分 记录 如 下 。 


Fo~awm 必 wb 


0. 


{"userID": 0, "name": "spark0", "registeredTime": "2016-10-11 18:06:25"} 
{"userID": 1, "name": "sparkl", "registeredTime": "2016-10-11 18:06:25"} 
{"userID": 2, "name": "spark2", "registeredTime": "2016-09-26 18:06:25"} 
{"userID": 3, "name": "spark3", "registeredTim "2016-10-04 18:06:25"} 
{"userID": 4, "name": "spark4", "registeredTime": "2016-10-05 18:06:25"} 
{"userID": 5, "name": "spark5", "registeredTime": "2016-10-05 18:06:25"} 

6, 

7, 

8, 

9, 





{"userID": "name": "spark6", "registeredTime": "2016-11-08 11:09:12"} 
{"userID": "name": "spark7", "registeredTime": "2016-10-07 18:06:25"} 
{"userID": "name": "spark8", "registeredTime": "2016-10-05 18:06:25"} 
{"userID": "name": "spark9", "registeredTime": "2016-10-07 18:06:25"} 


接 下 来 查看 用 户 访问 记录 的 JSON 格式 描述 信息 。 用 户 访问 记录 文件 logjson 的 格式 描 


述 如 下 。 


i 


{"logID":logID-Value, "userID":userID-Value, "time": time-Value, "typed": 


typed-Value, "consumed":consumed-Value } 

日 志 ID/ 值 对 ， 用 户 ID/ 值 对 ， 时 间 / 值 对 ， 类 型 / 值 对 ， 消 费 金额 / 值 对 

logID: 日 志 ID。 

- logID-Value : 日 志 ID 的 值 。 

userID: 用 户 ID。 

- userID-Value: 用 户 ID 的 值 。 

一 time: 注册 时 间 。 

time-Value: 具体 注册 时 间 的 值 。 

typed: 类 型 。typed=0 为 用 户 访问 电 商 网 站 ; typed=1 是 用 户 在 电 商 网 站 购买 商品 。 


-。- typed-Value :类 型 的 值 。 
. - consumed: 消 费 金额 。 
. -consumed-Value :消费 金额 的 值 。 


从 用 户 访问 记录 文件 logjson 中 摘 取 部 分 记录 如 下 。 


= 
25 
三 俩 


.524 


{"logID": 00, "userID": 0, "time": "2016-10-04 15:42:45", "typed": 0, "consumed": 0.0} 
{"logID": 01, "userID": 0, "time":"2016-10-17 15:42:45", "typed":1, "consumed": 33.36} 
下 oodTD 02 USerID On "timer: "2016°10=189. T1942:45". EVDed 0 
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"consumed": 0.0} 


4 "L0G0ID®: 03 "WSerID"S 


"consumed": 0.0} 


> 


"consumed": 664.35} 


GI LogTiDrs 00 "userID: 


"consumed": 0.0} 


Ts LogIB 067 "UseriD"s 


"consumed": 606.34} 


8 {LogID" O07 USerID”: 


"consumed": 120.72} 


9 (LogID" .08, "userIiD”: 


"consumed": 264.96} 


10。 {"10g1ID": 09 "userID”: 


"consumed": 0.0} 


0, "time": "2016-10-14 
0, "time": "2016-11-09 
0, "time": "2016-10-13 
0, "time": "2016-10-03 
0， "time": "2016-10-04 
0; “time”: "2016=09=24 


0» "time": "2016=09=25 


1542> 


08:45: 


15542: 


2 


15:42: 


2 


7， 


45", 
33", 
45", 
45", 
45", 
45", 


45", 


"typed": 0, 
"Eyped™s 1 
"typed": 0, 
"typed": 1, 
EVDea 2 1 
"Eyped"™: 15 


"typed": 0, 


前 面 已 经 讲解 了 用 户 信息 的 JSON 格 式 描述 信息 , 接 下 来 看 一 下 用 户 信息 的 parquet 格 式 。 
用 户 信息 (parquet 格式 ) 本 地 文件 保存 在 SparkApps\data\sql\userparquet.parquet 目录 下 ， 目 
录 里 共有 4 个 文件 。 本 地 文件 目录 结构 如 下 。 


ls 。 SUCCESS .crc 


.part-r-00000-52b3efd4-5b4a-43a8-b2d7-0e5f94396d82 .snappy.parquet.crc 


这 
SUCCESS 
4. 


part-r-00000-52b3efd4-5b4a-43a8-b2d7-0e5f94396d82. snappy 


parquet 格式 的 文本 文件 无 法 用 记事 本 直接 打开 ,用 记事 本 打开 将 看 到 二 进 制 数 据 ， 我 们 
在 Spark 应 用 程序 中 ， 使 用 printSchema() 方 法 打印 显示 用 户 的 userparquet.parquet 数据 结构 


如 下 。 
2 User 
2 1-- name: string (nullable = true) 
1-- registeredTime: string (nullable = true) 
4 1-- userID: long (nullable = true) 


用 户 访问 记录 (parquet 格式 ) 本 地 文件 保存 在 SparkApps\data\sql\logparquet.parquet 目录 
下 ， 目 录 里 面 共 有 4 个 文件 。 本 地 文件 目录 结构 如 下 。 


3 。 SUCCESS .crc 


2. .part-r-00000-673b6323-2dab-4665-8c52-f9lef90ab9b5.snappy.parquet.crc 


3 SUCCESS 


4. part-r-00000-673b6323-2dab-4665-8c52-f91lef90ab9b5.snappy.parquet 


使 用 printSchema 方法 打印 显示 用 户 访 问 记录 的 logparquet.parquet 数据 结构 如 下 。 


1-- consumed: double (nullable = true) 
1-- logID: long (nullable = true) 


time: string (nullable = true) 


1-- typed: long (nullable = true) 
1-- userID: long (nullable = true) 


Go 性 


14.1.2 ”特定 时 段 内 用 户 访问 电 商 网 站 排名 TopN 


本 节 纯 粹 通过 DataSet 实现 电 商 交互 式 分 析 系 统 中 特定 时 段 访 问 次 数 TopN 的 功能 。 在 


实现 特定 时 段 访问 次 数 TopN 的 功 


和 
Be 


前 ， 请 思考 以 下 问题 。 


2 


中 篇 “商业 案例 








第 一 个 问题 : 特定 时 段 中 的 时 间 是 从 哪里 来 的 ? 一 般 都 来 自 于 J2EE 调度 系统 ， 如 一 个 
营销 人 员 通 过 系统 传 入 了 2017.01.01~2017.01.10。 

第 二 个 问题 : 计算 的 时 候 我 们 会 使 用 哪些 核心 算 子 : join、groupBy、agg (在 agg 中 可 以 
使 用 大 量 的 functions.scala 中 的 函数 ， 极 大 方便 快速 地 实现 业务 逻辑 系统 ) 。 

第 三 个 问题 : 计算 完成 后 ， 数 据 保 存在 哪里 ? 在 生产 环境 中 ， 一般 保 存在 DB、 
HBase/Canssandra、Redis 中 。 

具体 实现 方法 如 下 。 

(1) 在 通过 DataSet 实现 电 商 交互 式 分 析 系 统 中 特定 时 段 访问 次 数 TopN 的 EB_Users_ 
Analyzer DateSetscala 代码 中 导入 sql 函数 方法 和 隐 式 转换 方法 。 
org.apache.spark.sql.functions.scala 文件 包含 了 大 量 的 内 置 函数 ， 尤 其 在 agg 中 会 广泛 使 用 。 

1. import org.apache.spark.sql.functions. 

2. import spark.implicits. 

(2) 方式 一 : 在 EB_Users_Analyzer_DateSet.scala 代码 中 使 用 JSON 格式 获取 用 户 信息 
数据 和 用 户 访问 记录 数据 。 

; val userInfo = spark.read.format ("json"). json("data/sql/user.json") 


val userLog = spark.read.format ("json"). json("data/sql/10g.json") 


人 
3 println(" 用 户 信息 及 用 户 访问 记录 文件 JSON 格式 :") 
.本 userInfo.printSchema () 
5 userLog.printSchema() 


在 IDEA 中 运行 代码 ， 打 印 用 户 信息 数据 和 用 户 访 问 记 录 数 据 JSON 格式 ， 输 出 结果 
如 下 。 


1. 用户 信息 及 用 户 访问 记录 文件 JSON 格式 : 

2 OOE 

< 1-- name: string (nullable = true) 

1-- registeredTime: string (nullable = true) 

1-- userID: long (nullable = true) 

6 

Zoot 

拘 1-- _corrupt record: string (nullable = true) 
// 源 数据 文件 格式 损坏 ， 可 检查 双 引 号 

加 1-- consumed: double (nullable = true) 

10. 1-- logID: long (nullable = true) 

11. |-- time: string (nullable = true) 

12. 1-- typed: long (nullable = true) 

13. 1-- userID: long (nullable = true) 


(3) 方式 二 : 在 EB_Users_Analyzer_DateSet.scala 代码 中 也 可 使 用 parquet 格式 获取 用 户 
信息 数据 和 用 户 访问 记录 数据 。 


和 val userInfo = spark.read.format ("parquet"). parquet ("data/sql/ 
userparquet .parquet") 
汉王 val userLog = spark.read.format ("parquet"). parquet ("data/sql/ 


logparquet .parquet") 
3 println (" 用 户 信息 及 用 户 访问 记录 文件 parquet 格式 :") 
网 六 UserInfo.-printSchema () 
ye UserLog-pPrintSchema () 


在 IDEA 中 运行 代码 ， 打 印 用 户 信息 数据 和 用 户 访问 记录 数据 parquet 格式 ， 输 出 结果 
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如 下 。 
I 用 户 信息 及 用 户 访问 记录 文件 parquet 格式 : 
Lt 
区 二 1-- name: string (nullable = true) 
4. 1-- registeredTime: string (nullable = true) 
与 二 1-- userID: long (nullable = true) 
0 
GE 
8. 1-- corrupt record: string (nullable = true) 
六 1-- consumed: double (nullable = true) 
10. 1-- logID: long (nullable = true) 
11. 1-- time: string (nullable = true) 
12. 1-- typed: long (nullable = true) 
13。 1== userID: long (nullable = true) 





(4) 统计 特定 时 段 访问 次 数 最 多 的 Top5， 使 用 filter 算 子 过 滤 出 10 月 1 日 至 11 月 1 日 
时 间 范 围 内 用 户 访问 电 商 网 站 的 数据 ， 根 据 用 户 ID 使 用 join 算 子 和 用 户 数据 关联 ， 按 用 户 
ID 和 用 户 姓名 进行 分 组 ， 然 后 使 用 agg 算 子 ， 利 用 内 置 函数 count 统计 日 志 ID 的 总 访问 次 
数 ， 将 用 户 的 总 访问 次 数 取 别名 为 userLogCount， 最 后 按 别 名 进行 降序 排列 ， 打 印 输出 前 5 
从 元 案 

统计 特定 时 段 访问 次 数 最 多 的 Top5 的 代码 如 下 。 


i val startTime = "2016-10-01" 

这 val endTime = "2016-11-01" 

3 println ("功能 一 : 统计 特定 时 段 访 问 次 数 最 多 的 Top5: 例如 2016-10-01 ~ 2016-11-01 :") 

“是 userLog.filter ("time >= '" + startTime + "' and time <= '" + endTime 
+ "' and typed = 0") 

5 .join(userInfo，userInfo ("userID") === userLog ("userID")) 

6 .groupBy (userInfo ("userID"),userInfo ("name")) 

和 的 .agg (count (userLog ("1ogID") ) .alias ("userLogCount")) 

局 -Sort ($"userLogCount" .desc) 

9 -limit (5) 

UD .show () 


在 IDEA 中 运行 代码 ， 特 定时 段 内 用 户 访问 电 商 网 站 排名 TopN， 输 出 结果 如 下 。 


i a 人 Top5: 例如 2016-10-01 ~ 2016-11-01: 
2. +------ 十 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 
32 ee name | 
4. +------ 二 -一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 一 一 十 
-|| 39 |spark391 45 | 
Ge 11 |1spark1l1ll 39 | 
| 9 | spark91 390 0 
S50 4 | spark41 3 于 
| 76 和 38 | 
OR 4 


14.2 ”纯粹 通过 DataSet 分 析 特 定时 段 购买 金额 Top10 和 访问 
次 数 增长 Top10 


本 节 纯 粹 通过 DataSet 分 析 特 定时 段 购买 金额 Top10 和 访问 次 数 增长 Top10。 
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(1) 分 析 特 定时 段 购买 金额 Top10: 使 用 filter 算 子 过 滤 出 10 月 1 日 至 11 月 1 日 时 间 范 
围 内 用 户 访问 电 商 网 站 的 数据 ， 根 据 用 户 ID 使 用 join 算 子 和 用 户 数 据 关 联 ， 按 用 户 ID 和 用 
户 姓名 进行 分 组 ， 然 后 使 用 agg 算 子 ， 利 用 内 置 函 数 sum 求 和 ， 统 计 用 户 消费 的 总 金额 ， 保 
留 2 位 小 数 取 整 , 将 用 户 消费 的 总 金额 取 别 名 为 totalCount, 最 后 按 别名 进行 降序 排列 ， 打 印 
输出 前 10 个 元 素 。 

统计 特定 时 段 内 用 户 购买 总 金额 排名 TopN。 
printin ("功能 三: 统计 特定 时 段 内 用 户 购买 总 金额 排名 TopN: ") 
userLog.filter ("time >= '" + startTime + "' and time <= '" + endTime + "'") 

.join(userInfo, userInfo("userID") === userLog ("userID")) 








.groupBy (userInfo ("userID"),userInfo ("name")) 

.agg (round (sum (userLog ("consumed")),2) .alias ("totalCount")) 
.sort($"totalCount".desc) 

-limit (10) 

.Show() 


在 IDEA 中 运行 代码 ， 统 计 特定 时 段 内 用 户 购买 总 金额 排名 TopN， 输 出 结果 如 下 。 


cawm 必 wm 





1. 功能 二 : 统计 特定 时 段 内 用 户 购买 总 金额 排名 TopN: 
2 . +------ 二 下 一 一 一 一 一 一 一 一 一 十 
3. luserID name |totalCount| 
4. +------ 和 1 + 
-|| 92 lspark92l 20109-1| 
G0 14 lspark14| 19991.641 
Shall 40 |spark40| 19098.221 
a= ll 64 lspark64| 19095.711 
| 46 |spark46| 18895.191 
| 41 |spark41| 18878.941 
| 10 lspark10| 18489.671 
下 | 80 1spark801 18003.311 
LS] 84 |spark84| 18002.741 
14. 1 49 |spark49| 17902.011 
15. +-----—- +-- 一 一 一- 一 ee + 


(2) 纯粹 通过 DataSet 分 析 特 定时 段 访问 次 数 增长 Top10: ”在 电 商 交互 式 分 析 系 统 应 用 
案例 中 ， 统 计 本 周 比 上 周 用 户 访 问 次 数 的 增长 排名 。 例 如 ， 上 一 周 的 时 间 范 围 为 2016 年 10 
月 01 日 至 7 日 , 本 周 的 时 间 范 围 为 2016 年 10 月 08 日 至 14 日 , 统计 出 访问 电 商 网 站 次 数 本 
周 比 上 周 环 比 增长 较 快 的 用 户 。 

电 商 交互 式 分 析 系 统 应 用 案例 统计 分 析 特 定时 段 访问 次 数 增长 Top10 的 实现 方法 : 

(1) 定义 case class 类 。 定 义 UserLog 用 户 类 ， 使 用 as[UserLog] 方 法 将 DataFrame 转换 
为 DataSet。 定 义 LogOnce 类 ， 用 于 存放 用 户 访问 网 站 的 计数 1 次 的 信息 ， 记 录用 户 的 日 志 
ID、 用 户 卫 及 计数 。 定 义 ConsumedOnce 类 ， 用 于 存放 用 户 购买 商品 金额 的 信息 ， 记 录用 户 
的 日 志 卫 、 用 户 DD 及 消费 金额 。 

case class 类 定义 如 下 。 


1. case class UserLog (logID: Long, userID: Long，time: String, typed: Long, 
consumed: Double) 




















“S28 


第 14 章 “Spark 商业 案例 之 电 商 交互 式 分 析 系统 应 用 案例 








区 
全 


case class LogOnce(logID: Long, userID: Long, count: Long) 

case class ConsumedOnce (logID: Long, userID: Long, consumed: Double) 
(2) 分 析 特 定时 段 访 问 次 数 增长 Top10。 

统计 访问 电 商 网 站 次 数 本 周 比 上 周 环比 增长 较 快 的 用 户 的 代码 编写 技巧 : 

口 在 用 户 访问 记录 中 过 滤 出 本 周 (2016 年 10 月 08 日 至 14 日 ) 的 访问 数据 ,使 用 map 
转换 函数 ,将 数据 集 Dataset[UserLog] 的 每 行 数 据 格 式 化 为 LogOnce 类 ， 生 成 新 的 数 


据 集 Dataset[LogOnce]， 数 据 格式 为 〈 日 志 卫 .用户 ID.1) 。 














口 在 用 户 访问 记录 中 过 滤 出 上 周 (2016 年 10 月 01 日 至 07 日 ) 的 访问 数据 ,使 用 map 
转换 函数 ， 将 数据 集 Dataset[UserLog] 的 每 行 数据 格式 化 为 LogOnce 类 ， 生 成 新 的 数 
据 集 Dataset[LogOnce]， 数 据 格式 为 〈 日 志 卫 ,用 户 ID.-1) 。 
(3) 将 本 周 和 上 周 的 用 户 访问 记录 进行 union 合并 ， 生 成 新 的 数据 集 userAccessTemp， 
其 中 的 计数 正 1 表示 本 周 的 记录 , 负 1 表示 上 周 的 数据 , 数据 格式 为 (日 志 卫 , 用 户 JP, 计 数 ) 。 
(4) 根据 用 户 ID 将 userAccessTemp 和 用 户 数据 进行 join 关联 ， 按 用 户 ID、 姓 名 分 组 ， 
使 用 agg 算 子 ， 利 用 内 置 函数 sum 统计 次 数 ， 这 里 有 一 个 构思 巧妙 的 小 技巧 : 计数 正 1 表示 


本 周 的 记录 ， 负 1 表示 上 周 的 数据 ，sum 求 和 有 














E 负 抵消 巧妙 地 统计 出 同一 用 户 本 周 比 上 周 


增长 的 访问 次 数 ， 将 用 户 本 周 比 上 周 增长 的 访问 次 数 取 别 名 为 viewIncreasedTmp， 最 后 按 别 
名 进行 降序 排列 ， 打 印 输出 前 10 个 元 素 。 


: 必 


qe 
10. 
Se 
FE 


println ("功能 三 : 统计 特定 时 段 内 用 户 访 问 次 数 增长 排名 TopN:") 
val userAccessTemp = userLog.as [UserLog] .filter ("time >= '2016-10-08" 
and time <= '2016-10-14' and typed = '0'") 
.map(log => LogOnce (log.1ogID, log.userID, 1)) 
.union (userLog.as[UserLog] .filter ("time >= '2016-10-01"' and time <= 
"2016-10-07' and typed = '0'") 
-map (1og => Logonce (1og.1ogID，1og.userID，-1))) 


UserRAccessTemp .join (userInfo，userInfo("userID") === userAccessTemp 
("userID")) 
.groupBy (userInfo ("userID"), userInfo("name")) 
.agg (round (sum (userAccessTemp ("count")), ，2) .alias ("viewIncreasedTmp")) 
.Sort ($"viewIncreasedTmp" .desc) 
.limit (10) 
.show () 


在 IDEA 中 运行 代码 ， 统 计 分 析 特 定时 段 访问 次 数 增长 Top10， 输 出 结果 如 下 。 
功能 三 : 统计 特定 时 段 内 用 户 访问 次 数 增长 排名 TopN: 


FFPPocwamwm 必 wm 
二 


记 记 
心 W 


二 三 


-一 -一 二 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


IuserID| name |viewIncreasedTmp| 


8 spark8| 本 
52 1spark521 
75 1spark751 
78 1spark781 
28 1spark281 
20 1spark201 
88 1spark881 
22 1spark221 
66 1spark661 
85 1spark851 


中 中 CDDDDmDoD 





1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
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14.3 ”纯粹 通过 DataSet 进行 电 商 交 互 式 分 析 系 统 中 各 种 类 型 
TopN 分 析 实 战 详 解 


纯粹 通过 DataSet 进行 电 商 交 互 式 分 析 系统 中 各 种 类 型 TopN 分 析 实战 详解 包括 : 统计 
特定 时 段 购 买 金额 最 多 的 Top5、 访 问 次 数 增长 最 多 的 Top5 用 户 、 购 买 金额 增长 最 多 的 Top5 
用 户 、 注 册 之 后 前 两 周 内 访问 最 多 的 Top10、 注 册 之 后 前 两 周 内 购买 总 额 最 多 的 Top10。 


14.3.1 统计 特定 时 段 购买 金额 最 多 的 Top5 用 户 


统计 特定 时 段 购 买 次 数 最 多 的 Top5 在 14.2 节 已 经 讲解 过 ， 使 用 filter 算 子 过 滤 出 2016 
年 10 月 1 日 至 11 月 1 日 时 间 范 围 内 用 户 访问 电 商 网 站 的 数据 ， 根据 用 户 ID 使 用 join 算 子 
和 用 户 数 据 关 联 ， 按 用 户 ID 和 用 户 姓 名 进行 分 组 ， 然 后 使 用 agg 算 子 ， 利 用 内 置 函数 sum 
求 和 统计 用 户 消费 的 总 金额 ，round 函数 保留 2 位 小 数 取 整 ， 将 用 户 消 费 的 总 金额 取 别 名 为 
totalConsumed， 最 后 按 别 名 进行 降序 排列 ， 打 印 输出 前 5 个 元 素 。 

统计 特定 时 段 购 买 次 数 最 多 的 Tops 代码 如 下 。 





本 val startTime = "2016-10-01" 

3 val endTime = "2016-11-01" 

< 人生 

4. ”println ("统计 特定 时 段 购买 金额 最 多 的 Top5: 例如 2016-10-01 ~ 2016-11-01 :") 

5 userLog.filter ("time >= '" + startTime + "' and time <= '" + endTime 
+ "' and typed = 1") 

6 .join(userInfo，userInfo ("userID") === userLog ("userID")) 

Ts .groupBy (userInfo("userID"), userInfo("name")) 

8= .agg (round (sum(userLog ("consumed")), 2).alias ("totalConsumed")) 

9. .sort($"totalConsumed" .desc) 

Ds Lamittsh 

dis .Show 


在 IDEA 中 运行 代码 ， 统 计 特定 时 段 购买 金额 最 多 的 Top5， 输 出 结果 如 下 : 


1. ”统计 特定 时 段 购买 金额 最 多 的 Top5: 例如 2016-10-01 ~ 2016-11-01: 
2. +------ + 一 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 一 一 一 + 
3. |userID| name |totalConsumed| 
4. +------ + 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 一 一 一 + 
eoll 92 |spark92| 20109.1 1 
6 |] 14 1spark141 19991.64 | 
el 40 1spark401 19098.22 | 
(ml | 64 1spark641 19095.71 1 
| | 46 1spark461 18895.19 | 
10. +-----— 十 -一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 + 


14.3.2 ”统计 特定 时 段 访问 次 数 增长 最 多 的 Top5 用 户 
统计 特定 时 段 访问 次 数 增长 最 多 的 Top5 用 户 , 例如 ,这 周 比 上 周 访问 次 数 增长 最 快 的 5 


“S330. 


第 14 章 “Spark 商业 案例 之 电 商 交互 式 分 析 系统 应 用 案例 








位 用 户 。 实 现 思路 : 一 种 非常 直接 的 方式 是 计算 这 周 每 个 用 户 的 访问 次 数 ， 同 时 计算 出 上 周 
每 个 用 户 的 访问 次 数 ， 然 后 相 减 并 进行 排名 ， 但 是 这 种 实现 思路 比较 消耗 性 能 ， 我 们 可 以 采 





用 一 种 既 能 实现 业务 目标 ， 又 能 够 提升 性 能 的 方式 ， 即 把 这 周 的 每 次 用 户 访问 计数 为 1， 把 


上 周 的 每 次 用 户 访问 计数 为 -1， 在 agg 操作 中 采用 sum 即 可 巧妙 地 实现 增长 趋势 的 量化 。 
统计 特定 时 段 访问 次 数 增长 最 多 的 Top5 用 户 ， 代 码 如 下 : 


:了 


| 


FF Fooo 
= 


val userLogDS = userLog.as[UserLog] .filter ("time >= '2016-10-08' and 
time <= '2016-10-14' and typed = '0'") 
-map (1og => LogOnce (log.1ogID, log.userID, 1)) 
.union (userLog.as[UserLog] .filter ("time >= "2016-10-01' and time <= 
'2016-10-07' and typed = '0'") 
-map (1og => LogOnce (log.1o0ogID, log.userID, -1))) 


println ("统计 特定 时 段 访 问 次 数 增长 最 多 的 Top5 用 户 ， 例 如 这 周 比 上 周 访问 次 数 增 
长 最 快 的 5 位 用 户 : ") 
userLogDS .join (userInfo，userLogDS ("userID") === userInfo ("userID")) 
.groupBy (userInfo ("userID")，userInfo("name") ) 
.agg (sum(userLogDs ("count")) .alias ("viewCountIncreased")) 
.sort ($"viewCountIncreased".desc) 
-limit (5) 
.Show() 


在 IDEA 中 运行 代码 ， 统 计 特 定时 段 访问 次 数 增长 最 多 的 Top5 用 户 ， 输 出 结果 如 下 。 


Fo ~awm 必 ww 


统计 特定 时 段 访 问 次 数 增长 最 多 的 Top5 用 户 ， 例 如 这 周 比 上 周 访问 次 数 增长 最 快 的 5 位 用 户 : 





[Stage 19 := 

有 三 炸 三 二 = + 
IuserID| name |viewCountIncreased| 
二 二 和 十 
| 8 | spark8| 10 | 
| 52 |spark521 9 1 
1 75 1spark751 1 
| 28 1spark281 7 1 
1 78 1spark781 有 1 
着 二 二 + 


14.3.3 ”统计 特定 时 段 购买 金额 增长 最 多 的 Top5 用 户 


统计 特定 时 段 购买 金额 增长 最 多 的 Top5 用 户 ， 例 如 这 周 比 上 周 购买 金额 增长 最 多 的 5 
位 用 户 。 在 电 商 交互 式 分 析 系统 应 用 案例 中 , 统计 本 周 比 上 周 用 户 购买 金额 增长 最 多 的 排名 ， 
例如 上 周 的 时 间 范 围 为 2016 年 10 月 01 日 至 7 日 ， 本 周 的 时 间 范 围 为 2016 年 10 月 08 日 至 
14 日 ， 统 计 出 用 户 购买 金额 本 周 比 上 周 环比 增长 最 多 的 5 位 用 户 。 




















方法 : 





电 商 交互 式 分 析 系 统 应 用 案例 统计 特定 时 段 购 买 金额 增长 最 多 的 Top5 用 户 实现 


(1) 定义 case class 类 。 定 义 UserLog 用 户 类 ， 使 用 as[UserLog] 方 法 将 DataFrame 转换 
为 DataSet。 定 义 LogOnce 类 ， 用 于 存放 用 户 访问 网 站 的 计数 1 次 的 信息 ， 记 录用 户 的 日 志 
ID、 用 户 ID 及 计数 。 定义 ConsumedOnce 类 ， 用 于 存放 用 户 购 买 商品 金额 的 信息 ， 记 录用 户 
的 日 志 ID、 用 户 ID 及 消费 金额 。 

case class 类 定义 如 下 。 
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1. case class UserLog (logID: Long，userID: Long, time: String, typed: Long, 
consumed: Double) 
2. case class LogOnce(logID: Long, userID: Long, count: Long) 
3 case class ConsumedOnce (logID: Long, userID: Long, consumed: Double) 
(2) 统计 特定 时 段 本 周 比 上 周 购买 金额 增长 最 多 的 Top5 用 户 的 代码 编写 技巧 : 
口 在 用 户 访问 记录 中 过 滤 出 本 周 (2016 年 10 月 08 日 至 14 日 ) 及 购买 商品 行为 (类 型 
为 1) 的 访问 数据 ， 使 用 map 转换 函数 ， 将 数据 集 Dataset[UserLog] 的 每 行 数据 格式 
化 为 ConsumedOnce 类 ， 生 成 新 的 数据 集 Dataset[ConsumedOnce]。 数 据 格式 为 〔 日 
志 卫 ,用 户 DD, 消费 金额 〉。 
口 在 用 户 访问 记录 中 过 滤 出 上 周 (2016 年 10 月 01 日 至 07 日) 及 购买 商品 行为 (类 型 
为 1) 的 访问 数据 ， 使 用 map 转换 函数 ， 将 数据 集 Dataset[UserLog] 的 每 行 数据 格式 
化 为 ConsumedOnce 类 ， 生 成 新 的 数据 集 Dataset[ConsumedOnce]。 数 据 格式 为 〔 日 
志 卫 , 用 户 人 D,- 消 费 金 额 〉。 
(3) 将 本 周 和 上 周 的 用 户 访问 记录 进行 union 合并 , 生成 新 的 数据 集 userLogConsumerDS， 
其 中 正 的 消费 金额 表示 本 周 的 记录 ， 负 的 消费 金额 表示 上 周 的 数据 。 数 据 格式 为 〈 日 志 人 DD， 
用 户 D, 消 费 金额 〉。 
(4) 根据 用 户 ID 将 userLogConsumerDS 和 用 户 数据 进行 join 关联 ， 按 用 户 ID、 姓 名 分 
组 ， 使 用 agg 算 子 ， 利 用 内 置 函 数 sum 统计 求 和 ， 正 的 消费 金额 表示 本 周 的 记录 ， 负 的 消费 
金额 表示 上 周 的 数据 ，sum 求 和 就 巧妙 地 统计 出 同一 用 户 本 周 比 上 周 增长 的 消费 金额 。round 
函数 保留 2 位 小 数 取 整 ,将 用 户 本 周 比 上 周 增长 的 消费 金额 取 别 名 为 viewConsumedImcreased， 
最 后 按 别名 进行 降序 排列 ， 打 印 输出 前 5 个 元 素 。 
统计 特定 时 段 购买 金额 增长 最 多 的 Top5 用 户 ， 代 码 如 下 。 
1. ”println ("统计 特定 时 段 购 买 金 额 增长 最 多 的 Top5 用 户 ， 例 如 这 周 比 上 周 购买 金额 增长 最 
多 的 5 位 用 户 : ") 


2 val userLogConsumerDS = userLog.as[UserLog] .filter("time >= '2016- 
10-08' and time <= '2016-10-14' and typed == 1") 

















= .map(log => ConsumedOnce (log.1ogID, log.userID, log.consumed)) 

4. .union (userLog.as[UserLog] .filter ("time >= '2016-10-01' and time <= 
"2016-10-07' and typed == 1") 

中 .map (1og => ConsumedOnce (log.1logID, log.userID, -log.consumed))) 

| 站 

也 userLogConsumerDS .join(userInfo,， UserLogConsumerDS ("userID") === 

userInfo ("userID")) 

8. .groupBy (userInfo("userID"), userInfo("name")) 

9= .agg (round (sum (userLogConsumerDS ("consumed")), 2) .alias ("viewConsumed 
Increased")) 

本 OP .sort (S"viewConsumedIncreased"n .desc) 

E -limit (5) 

2 -Show() 


在 IDEA 中 运行 代码 ， 统 计 特定 时 段 购买 金额 增长 最 多 的 Top5 用 户 ， 输 出 结果 如 下 : 
统计 特定 时 段 购买 金额 增长 最 多 的 Top5 用 户 ， 例 如 这 周 比 上 周 购买 金额 增长 最 多 的 5 位 用 户 : 
十 十 


站 TR 

luserID| name |viewConsumedIncreased| 
十 一 一 一 一 一 十 一 一 一 一 一 一 一 地 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| 47 1spark471 6684.31 | 
| 62 1spark621 5339- 9 
| 83 1spark831 5282-87 “| 
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| 45 1spark451 4677.08 | 
| | 11 lspark11l 4480.73 | 
了 和 这 十 


14.3.4 统计 特定 时 段 注 册 之 后 前 两 周 内 访问 次 数 最 多 的 Top10 用 户 


在 电 商 交互 式 分 析 系 统 应 用 案例 中 , 统计 注册 之 后 前 两 周 内 访问 次 数 最 多 的 Top10 的 用 
户 。 例如， 新 用 户 的 注册 时 间 是 2016-10-01， 在 注册 之 后 的 两 周 (2016-10-01 至 2016-10-14) 
时 间 范 围 内 ,统计 出 新 用 户 访问 电 商 网 站 次 数 Top10 的 用 户 ， 电 商 网 站 就 可 对 活跃 的 新 用 户 
进行 营销 推广 。 
电 商 交互 式 分 析 系统 应 用 案例 统计 注册 之 后 前 两 周 内 访问 次 数 最 多 的 Top10 用 户 实现 方法 : 
(1) 根据 用 户 ID， 将 用 户 访问 记录 和 用 户 信息 进行 join 关联 。 
(2) 过 滤 出 2016-10-01 至 2016-10-14 期 间 注册 的 新 用 户 , 用 户 访问 电 商 网 站 的 时 间 在 用 
户 新 注册 时 间 及 注册 时 间 两 周 内 (注册 时 间 加 上 14 天 ) 的 时 间 范 围 内 , 而 且 是 访问 网 站 (类 
型 等 于 0) 的 用 户 记录 。 注 意 ; 这 里 使 用 了 functions.scala 中 的 内 置 函数 date_add,date add 在 
开始 时 间 start 基础 之 加 上 days 的 时 间 ， 即 加 上 14 天 。 
(3) 根据 用 户 ID、 姓 名 分 组 。 
(4) 使 用 agg 算 子 ， 按 用 户 访问 记录 的 日 志 ZD 统计 计数 ， 取 别名 为 logTimes。 
(5) 根据 别名 logTimes 进行 降序 排列 ， 取 前 10 个 数据 ， 打 印 输出 。 
统计 注册 之 后 前 两 周 内 访问 次 数 最 多 的 Top10， 代 码 如 下 。 
println ("统计 注册 之 后 前 两 周 内 访问 次 数 最 多 的 Top10:") 
userLog.join(userInfo, userInfo("userID") === userLog ("userID")) 
.filter (userInfo("registeredTime") >= "2016-10-01" 
&& userInfo("registeredTime") <= "2016-10-14" 
&& userLog ("time") >= userInfo("registeredTime") 
&& userLog("time") <= date add(userInfo("registeredTime"), 14) 
&& userLog("typed") === 0) 
.groupBy (userInfo ("userID"), userInfo("name")) 
.agg (count (userLog ("1ogID") ) .alias ("logTimes")) 
10. .Sort ($"logTimes".desc) 


FE 让 .limit (10) 
5 .show () 


在 IDEA 中 运行 代码 ， 统 计 注册 之 后 前 两 周 内 访问 次 数 最 多 的 Top10， 输 出 结果 如 下 。 





oanONDP 


1. 统计 注册 之 后 前 两 周 内 访问 次 数 最 多 的 Top10: 
2. +------ 二 二 二 一 二 4 
3. luserID| name |logTimes| 
4. +------ te en et 村 
Gm 11 1spark1l11 29 
| 66 1spark661 26 
eel 92 1spark921 25 
汪汪 | 8 | spark8| 25 
| 63 1spark631 24 
ll 9 | spark91 24 
| 4 | spark41 24 
sb | 37 1spark371 | 
yl 74 1spark741 2 
| 96 1spark961 2 
15. +----—— + 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 + 
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14.3.5 ”统计 特定 时 段 注册 之 后 前 两 周 内 购买 总 额 最 多 的 Top10 用 户 


在 电 商 交互 式 分 析 系 统 应 用 案例 中 ,统计 注册 之 后 前 两 周 内 购买 总 额 最 多 的 Top10 的 用 
户 。 例 如 ， 新 用 户 的 注册 时 间 是 2016-10-01， 在 注册 之 后 的 两 周 (2016-10-01 至 2016-10-14) 
时 间 范 围 内 ， 统 计 出 两 周 内 新 用 户 购 买 总 额 最 多 Top10 的 用 户 。 
电 商 交互 式 分 析 系 统 应 用 案例 统计 注册 之 后 前 两 周 内 购买 总 额 最 多 的 Top10 用 户 实现 
方法 : 
(1) 根据 用 户 ID， 将 用 户 访问 记录 和 用 户 信息 进行 join 关联 。 
(2) 过 滤 出 在 2016-10-01 至 2016-10-14 期 间 注 册 的 新 用 户 , 用 户 访问 电 商 网 站 的 时 间 在 
用 户 新 注册 时 间 及 注册 时 间 两 周 内 (注册 时 间 加 上 14 天 ) 的 时 间 范 围 内 , 而 且 是 购买 商品 (类 
型 等 于 1) 的 用 户 的 记录 。 同样 , 这 里 使 用 了 functions.scala 中 的 内 置 函数 date_add, date_add 
在 开始 时 间 start 基础 上 加 上 days 的 时 间 ， 即 加 上 14 天 。 
(3) 根据 用 户 ID、 姓 名 分 组 。 
(4) 使 用 agg 算 子 和 sum 函数 对 用 户 消费 金额 求 和 ，round 函数 保留 2 位 小 数 取 整 ， 取 
别名 为 totalConsumed。 
(5) 根据 别名 totalConsumed 进行 降序 排列 ， 取 前 10 个 数据 ， 打 印 输 出 。 
统计 注册 之 后 前 两 周 内 购买 总 额 最 多 的 Top10， 代 码 如 下 。 
println (" 统 计 注 册 之 后 前 两 周 内 购买 总 额 最 多 的 Top10 :") 
userLog.join(userInfo, userInfo("userID") === userLog ("userID")) 
.filter (userInfo("registeredTime") >= "2016-10-01" 
&& UserInfo ("registeredTime") <= "2016-10-14" 
&& userLog("time") >= userInfo("registeredTime") 
&& UserLog("time") <= date add(userInfo("registeredTime"), 14) 
&& userLog("typed") === 1) 
.groupBy (userInfo("userID"), userInfo("name")) 
.agg (round (sum (userLog ("consumed")), 2).alias ("totalConsumed")) 
UD .sort($"totalConsumed" .desc) 


Ls .limit (10) 
和 | 和 .show() 


在 IDEA 中 运行 代码 ， 统 计 注 册 之 后 前 两 周 内 购买 总 额 最 多 的 Top10， 输 出 结果 如 下 。 
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1 统计 注册 之 后 前 两 周 内 购买 总 额 最 多 的 Top10: 
ee 下 站 十 
3. luserID name |totalConsumed| 
2 4 3 + 
-| | 92 1spark921 下 S55529h 1 
CI 65 1spark651 15191-59 | 
Tl 59 1spark591 14238.02 | 
ral | 40 1spark401 LAIT6T72.1 
| 80 1spark801 L3329a5771 
0 91 1spark911 132455581 
:bb | 57 1spark571 12997.61 | 
L201 64 1spark641 12717.84 | 
L301 26 |spark26| 11667.84 | 
Ee | 5 | spark51 11608.82 | 
15. +-—-——-——— + 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
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14.4 电 商 交 互 式 分 析 系统 应 用 案例 涉及 的 核心 知识 点 原 
理 、 源 码 及 案例 代码 


14.4.1 知识 点 : Functions.scala 


Spark 框架 源码 functions.scala 文件 包含 了 大 量 的 内 置 函数 ， 尤 其 在 agg 中 会 广泛 使 用 ， 
请 认真 反复 阅读 该 源码 并 实践 。 
首先 看 一 下 functions.scala 包括 的 函数 功能 分 类 ， 如 UDF 自 定 义 函 数 、 聚 合 函数 、 日 期 
时 间 函 数 、 排 序 函 数 、 非 聚合 函数 、 数 学 函数 、 窗 口 函数 、 字 符 串 函数 、 集 合 函数 、 其 他 函 
数 等 ， 如 下 所 示 。 
Functions 函数 功能 可 用 于 DataFrame 的 操作 。 
@groupname udf funcs UDF 自 定义 函数 
@groupname agg_funcs 聚合 函数 
egroupname datetime funcs 日 期 时 间 函 数 
@groupname sort funcs 排序 功能 
@groupname normal funcs 非 聚合 函数 
Q@groupname math funcs 数学 函数 
Q@groupname misc funcs 其 他 功能 
9. groupname window funcs 窗口 函数 
10. @groupname string funcs 字符 串 函 数 
11. @groupname collection funcs 集合 函数 功能 
12. @groupname DataFrames 不 分 组 支持 功能 
13. esince 自从 1.3.0 


统计 Spark 框架 源码 中 fonctions.scala 中 新 增 API 函数 的 演进 情况 ， 从 Spark 1.3.0 演进 
到 Spark 2.2.0 API 函数 共计 307 个 。functions.scala 中 API 函数 统计 见 表 14-1。 





cawm 必 wm 


表 14-1 functions.scala 中 API 函 数 统计 











Spark 1.3.0 47 
Spark 1.4.0 | 91 
Spark 1.5.0 86 
Spark 1.6.0 我 
Spark 2.0.0 20 
Spark 2.1.0 21 





Spark 2.2.0 9 
下 面 讲解 一 下 Spark 2.0.0 中 新 增 的 时 间 窗 口 函数 的 应 用 。 
Window 时 间 窗 口 函数 是 在 Spark2.0.0 中 新 增 的 API 函数 ， 根 据 Window 函数 中 给 定时 
间 惟 指定 列 ， 生 成 滚动 时 间 窗 口 。 时 间 窗 口 是 左 开 右 闭 的 ， 例 如 12:05 将 落 在 窗口 
[ 12:05.12:10) ， 不 落 在 窗口 [12:00.12:05) 。Windows 可 以 支持 微 秒 级 精度 。 时 间 窗 口 不 支 
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持 月 份 的 顺序 。Windows 开始 时 间 为 1970-01-01 00:00:00 UTC 。 
Window 时 间 窗 口 函数 一 ， 包 括 时 间 列 、 窗 口 时 间 两 个 参数 ， 源 码 如 下 。 


* 
* 
永 
3 
* 
* 
于 


束 


流 式 查 询 ， 可 以 使 用 current timestamp 生成 处 理 时 间 窗 口 


@param timeColumn 列 或 表达 式 作 为 窗口 时 间 的 时 间 戳 ， 时 间 列 必须 为 Trimestamp 类 型 
Q@param windowDuration 指定 窗口 宽度 的 字符 串 ， 如 “10 分 钟 ”“1 秒 钟 ”。 使 用 
[org.apache.spark.unsafe.types.CalendarInterval] 检 查 有 效 持续 时 间 标识 符 


@group 日 期 时 间 函 数 
Q@since 2.0.0 从 Spark 2.0.0 新 增 


Ea 


@InterfaceStability.Evolving 进化 演进 
def window(timeColumn: Column, windowDuration: String) : Column = { 
2 window (timeCcolumn，windowDuration，windowDuration，"0 second") 


3 1 


3 

6 

y | 

35 
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Window 时 间 窗 口 函数 一 的 应 用 ， 如 一 分 钟 的 滚动 窗口 的 平均 股价 : 


美英 美美 闫 党 


Wt 
val df = ... // schema => timestamp: TimestampType, stockId: 
StringType, price: DoubleType 

df.groupBy (window ($"time", "1 minute"), $"stockId") 
.agg (mean ("price")) 


wl 


Window 时 间 窗 口 函 数 一 显 示 如 下 。 


性 
其 党 闫 美 关 


he 

09:00:00-09:01:00 

09:01:00-09:02:00 

090200=09=035000:5. 
Di 





Window 时 间 窗 口 函数 二 ， 包 括 时 间 列 、 窗 口 时 间 、 滑 动 时 间 窗 口 3 个 参数 ， 源 码 


如 下 。 

: * 流 式 查询 ， 可 以 使 用 current timestamp 生成 处 理 时 间 窗 口 

区 * @param timeColumn 列 或 表达 式 作 的 时 间 列 必须 为 Timestamp 类 型 

3 * @param windowDuration 指定 窗口 宽度 的 字符 串 ， 如 “10 分 钟 ”“1 秒 钟 ” 
* [org.apache.spark.unsafe.types.CalendarInterval] 检查 有 效 持续 时 间 标 六 
* 符 。 注意 , 持续 时 间 是 一 个 固定 长 度 的 时 间 , 并 不 会 随 日 历时 间 的 变化 而 变化 。 例如 , 1 day 
* 总 是 意味 着 86400000 ms， 而 不 是 日 历 日 

4 * Q@param slideDuration 指定 滑动 时 间 窗 口 的 字符 串 ， 例 如 “1 分 钟 ”， 根 据 每 个 
* slideDuration 生成 新 的 时 间 窗 口 ，slideDuration 必须 小 于 或 等 于 windowduration。 
* 使 用 [org.apache.spark.unsafe.types.CalendarInterval] 检 查 有 效 持续 时 间 
* 标识 符 。 这 个 持续 时 间 也 是 绝对 的 ， 不 根据 日 历 变化 

3 束 

6. * @group 日 期 时 间 函 数 

ol * Q@since 2.0.0 从 Spark 2.0.0 新 增 

Ts */ 

时 @Experimental 试验 性 的 

了 @InterfaceStability.Evolving 进化 演进 

1402 def window (timeColumn: Column, windowDuration: String, slideDuration: 
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1s 
12% 


String): Column = { 


} 


window (timeColumn, windowDuration, slideDuration, "0 second") 


Window 时 间 窗 口 函数 二 的 应 用 ， 如 滑动 时 间 窗 口 每 隔 10s， 每 一 分 钟 时 间 窗 口 的 平均 


股价 : 


六 闫 闫 美美 关 


oe 
val df = ... // schema => timestamp: TimestampType, stockId: 
StringType, price: DoubleType 

df.groupBy (window ($"time", "1 minute", "10 seconds"), $"stockId") 
-agg (mean ("price")) 


Ed 


Window 时 间 窗 口 函数 二 显示 如 下 。 


wm 必 mw 


妆 类 类 其 关 


二 

09:00:00-09:01:00 
O900210=09:00:0 
0900:20=09=50L:200 = 。 
De 


Window 时 间 窗 口 函数 三 ， 包 括 时 间 列 、 窗 口 时 间 、 滑 动 时 间 窗 口 、 开 始 时 间 4 个 参数 ， 


源码 如 下 。 


1 
2 
三 攻 


* 


闫 六 六 汪 美 美 党 美 甘 美 美美 甘 美美 


束 


流 式 查询 ， 可 以 使 用 current_timestamp 生成 处 理 时间 窗 口 

Q@param timeColumn 列 或 表达 式 作 为 窗口 时 间 的 时 间 戳 ， 时 间 列 必须 为 Timestamp 类 型 。 
@param windowDuration 指定 窗口 宽度 的 字符 串 ， 如 “10 分 钟 ”，“1 秒 钟 ”。 使 
用 [org.apache.spark.unsafe.types.CalendarInterval] 检查 有 效 持续 时 间 标 识 
符 。 注意, 持续 时 间 是 一 个 固定 长 度 的 时 间 , 并 不 会 随 日 历时 间 的 变化 而 变化 。 例如 , 1 day 
总 是 意味 着 86400000 ms， 而 不 是 日 历 日 

Q@param slideDuration 指定 滑动 时 间 窗 口 的 字符 串 ， 如 “1 分 钟 ”， 根 据 每 个 
slideDuration 生成 新 的 时 间 窗 口 ，slideDuration 必须 小 于 或 等 于 windowduration。 
使 用 [org.apache.spark.unsafe.types.CalendarInterval] 检查 有 效 持续 时 间 标 
识 符 。 这 个 持续 时 间 也 是 绝对 的 ， 不 根据 日 历 变化 

@param startTime 相对 于 1970-01-01 00:00:00 UTC 开始 偏 移 窗口 的 时 间 间 隔 。 
例如 ， 每 小 时 滚动 时 间 窗 口 开 始 时 间 之 后 的 15 min， 如 12:15-13:15，13:15-14:15… 提 供 
开始 时 间 startTime 为 15 min 


Q@group 日 期 时 间 函 数 
@since 2.0.0 


/ 


@Experimental 实验 性 的 
@InterfaceStability.Evolving 演进 进化 
def window( 


timeColumn: Column, 

windowDuration: String, 

slideDuration: String, 

startTime: String): Column = { 
withExpr { 

TimeWindow (timeColumn .expr, windowDuration, slideDuration, startTime) 
}.as ("window") 


33s 


中 篇 “商业 案例 








Window 时 间 窗 口 函 数 三 应 用 ， 如 滑动 时 间 窗 口 每 10s 开始 时 间 的 后 5s， 每 一 分 钟 时 间 
窗口 的 平均 股价 : 


A 束 

» 素 val df = ... // schema => timestamp: TimestampType, stockId: 
StringType, price: DoubleType 

Es * df.groupBy (window($"time", "1 minute", "10 seconds", "5 seconds"), 
* S$"stockIid") 

4. .agg (mean ("price")) 

BG RN 


Window 时 间 窗 口 函数 三 显示 如 下 。 


09:00:05-09:01:05 
09500=15=0950LsL 
O900:25=09701200 
的 出 


OANAODNDP 
闪闪 闪闪 只 闪闪 


functions.scala 代码 中 的 API 函数 清单 见 表 14-2。 
表 14-2 functions.scala 代 码 中 的 API 函 数 清单 





函 数 名 函数 功能 
abs(Column e) 计算 绝对 值 
acos(Column e) 计算 给 定 值 的 反 余弦 ; 返回 的 角度 在 0.0 一 x 的 范围 内 
acos(String columnName) 计算 给 定 列 的 反 余弦 ; 返回 的 角度 在 0.0~r 的 范围 内 
add_months(Column startDate, int 返回 在 开始 日 期 之 后 为 aumMonths 的 日 期 
numMonths) 
approx_count_distinct(Column e) 聚合 函数 : 返回 组 中 不 同 记录 的 近似 数量 


approx_count_distinct(Column e, double rsd) ”| 聚合 函数 :返回 组 中 不 同 记录 的 近似 数量 
approx_count_distinct(String columnName) | 聚合 函数 :返回 组 中 不 同 记录 的 近似 数量 





approx_count distinct(String columnName, 聚合 函数 :返回 组 中 不 同 记录 的 近似 数量 
double rsd) 
approxCountDistinct(Column e) 已 弃 用 。 可 使 用 spark 2.1.0 中 的 approx_count_distinct 函数 
approxCountDistinct(Column e, double rsd) | 已 弃 用 。 可 使 用 spark 2.1.0 中 的 approx_count_distinct 函数 



































approxCountDistinct(String columnName) 已 弃 用 。 可 使 用 spark 2.1.0 中 的 approx_count distinct 函数 


es columnName, 已 弃 用 。 可 使 用 spark 2.1.0 中 的 approx_count_distinct 函数 
ouble rs 


array_contains(column: Column， value: 如 果 数组 包含 value， 则 返回 true 
Any): Column 

















array(cols: Column*): Column 创建 一 个 新 的 数组 列 。 输 入 列 必须 具有 相同 的 数据 类 型 





array(colName: String, colNames: String*): | 创建 一 个 新 的 数组 列 。 输 入 列 必须 具有 相同 的 数据 类 型 


Column 


























asc_nulls first(String columnName) 返回 基于 列 的 升序 的 排序 表达 式 ， 空 值 在 非 空 值 之 前 返回 
asc_nulls last(String columnName) 根据 列 的 升序 返回 排序 表达 式 ， 空 值 显示 在 非 空 值 后 面 
asc(String columnName) 根据 列 的 升序 返回 排序 表达 式 

ascii(Column e) 计算 字符 串 列 的 第 一 个 字符 的 数值 ， 并 将 结果 作为 int 列 返回 
asin(Column e) 计算 给 定 值 的 正弦 倒数 ; 返回 的 角度 在 -2 一 m/2 的 范围 内 


“Se 
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atan2(double 1, String rightName) 





返回 从 直角 坐标 (x，y) 到 极 坐 标 〈r， 





9 的 转换 角度 0 





续 表 
函 数 名 函数 功能 

asin(String columnName) 计算 给 定 值 的 正弦 倒数 ; 返回 的 角度 在 -w2 一 mw2 的 范围 内 
atan(Column e) 计算 给 定 值 的 正切 倒数 
atan(String columnName) 计算 给 定 列 的 正切 倒数 
atan2(Column 1, Column 7) 返回 从 直角 坐标 (x，y) 到 极 坐 标 (r，6) 的 转换 角度 8 
atan2(Column 1, doubleD) 返回 从 直角 坐标 x，y) 到 极 坐 标 (>，6) 的 转换 角度 0 
atan2(Column 1, String rightName) 返回 从 直角 坐标 (x，y) 到 极 坐 标 (>，6) 的 转换 角度 9 
atan2(double 1 Column D 返回 从 直角 坐标 x，y) 到 极 坐标 (r，09) 的 转换 角度 9 

返 

返 


atan2(String leftName, Column 7) 


返回 从 直角 坐标 (x，?) 到 极 坐 标 (x， 


外 的 转换 角度 9 





atan2(String leftName, double 1) 
atan2(String leftName, String rightName) 


返回 从 直角 坐标 ‘x，y) 到 极 坐 标 《x， 
返回 从 直角 坐标 x，y)》 到 极 坐 标 《x， 


9 的 转换 角度 9 
9) 的 转换 角度 9 





avg(Column e) 
avg(String columnName) 
base64(Column e) 


bin(Column e) 


bin(String columnName) 
bitwiseNOT(Column e) 


broadcast[T](df Dataset[T]): Dataset[T] 
bround(Column e) 


bround(Column e, int scale) 


callUDF(String udfName, Column... cols) 
callUDF(String udfName, 
scala.collection.Seq<Column> cols) 
cbrt(Column e) 


聚合 函数 : 返回 组 中 值 的 平均 值 
聚合 函数 : 返回 组 中 值 的 平均 值 








计算 二 进 制 列 的 BASE64 编码 ， 并 将 其 作为 字符 串 列 返回 
返回 给 定 长 度 的 二 进 制 值 的 字符 串 表 达 式 。 如 bin("12") 返 回 


"1100" 


返回 给 定 长 度 的 二 进 制 值 的 字符 串 表达 式 。 如 bin("12") 返 回 


"1100" 
位 不 进行 计算 


将 DataFrame 标记 为 足够 小 ， 以 在 广播 中 使 用 joinKey 进行 


连接 


使 用 HALF_EVEN 向 最 接近 数字 方向 舍 入 的 模式 返回 小 数 点 


后 0 位 的 列 值 e 


如 果 scale 大 于 或 等 于 0 ， 用 HALF_EVEN 舍 入 模式 将 值 舍 





入 e 为 scale 小 数位 ， 如 果 scale 小 于 0， 则 舍 入 为 整数 部 分 
调用 用 户 定义 的 函数 
调用 用 户 定义 的 函数 





计算 给 定 值 的 立方 根 


























cbrt(String columnName) 计算 给 定 列 的 立方 根 

ceil(Column e) 计算 给 定 值 的 上 限 

ceil(String columnName) 计算 给 定 列 的 上 限 

coalesce(Column... e) 返回 非 空 的 第 一 列 ， 如 果 所 有 输入 为 空 ， 则 返回 null 
coalesce(scala.collection.Seq<Column> e) 返回 非 空 的 第 一 列 ， 如 果 所 有 输入 为 空 ， 则 返回 null 














col(String colName) 


基于 给 定 的 列 名 返回 列 





collect_list(Column e) 
collect_list(String columnName) 


聚合 函数 : 返回 具有 重复 的 对 象 的 列表 
聚合 函数 : 返回 具有 重复 的 对 象 的 列表 





collect_set(Column e) 


聚合 函数 : 返回 没有 重复 元 素 的 对 象 








collect_set(String columnName) 





聚合 函数 : 返回 没有 重复 元 素 的 对 象 





column(String colName) 


concat ws(String sep, Column... exprs) 


基于 给 定 的 列 名 返回 列 


使 用 给 定 的 分 隔 符 将 多 个 输入 字符 串 列 连 接 在 一 起 ， 成 为 单 


个 字符 串 列 


a 


中 篇 “商业 案例 








函 数 名 
concat ws(String sep, scala.collection.Seq< 
Column> exprs) 
concat(Column... exprs) 


续 表 
函数 功能 
使 用 给 定 的 分 隔 符 将 多 个 输入 字符 串 列 连接 在 一 起 ， 成 为 单 
个 字符 串 列 
将 多 个 输入 字符 串 列 连接 在 一 起 ， 成 为 单个 字符 串 列 





concat(scala.collection.Seq<Column> exprs) 


conv(Column num, int fromBase, int toBase) 





将 多 个 输入 字符 串 列 连接 在 一 起 ， 成 为 单个 字符 串 列 
将 字符 串 列 中 的 数字 从 一 个 基数 转换 为 另 一 个 基数 





corr(Column column1, Column column2) 
corr(String columnNamel, String 


聚合 函数 : 返回 两 列 的 皮尔 森 相 关系 数 


























聚合 函数 : 返回 两 列 的 皮尔 森 相 关系 
of 聚合 函数 : 返回 两 列 的 皮尔 森 相 关系 数 
cos(Column e) 计算 给 定 值 的 余弦 值 
cos(String columnName) 计算 给 定 列 的 余弦 
cosh(Column e) 计算 给 定 值 的 双 曲 余弦 值 
cosh(String columnName) 计算 给 定 列 的 双 曲 余弦 值 
count(Column e) 聚合 函数 : 返回 组 中 的 记录 数 
count(columnName: String): TypedColumn 聚合 函数 :返回 组 中 的 记录 数 
[Any, Long] 
countDistinct(Column expr, Column..…. exprs) | 聚合 函数 :返回 组 中 不 同 记录 的 数量 
countDistinct(Column expr, scala.collection. 聚合 函数 :返回 组 中 不 同 记录 的 数量 
Seq<Column> exprs) 
countDistinct(String columnName, scala. 入 陆 狠 ， 扳 回 | < 同 刘 录 的 儿 量 
collection.Seq<String> columnNames) 聚合 函数 :返回 组 中 不 同 记录 的 数量 
countDistinct(String columnName, String... 入 陆 狠 ， 扳 加 I 引 同 刘 录 的 儿 量 
eoniiNianes) 聚合 函数 : 返回 组 中 不 同 记录 的 数量 
covar_pop(Column columnl, Column 人 入 届 狐 。 扳 -| 所 休 财 六 半 
wn 聚合 函数 :返回 两 列 的 总 体 协 方差 
covar_pop(String columnNamel, String 聚合 函数 :返回 两 列 的 总 体 协 方差 
columnName2) 全 
covar_samp(Column column1, Column 聚合 函数 :返回 两 列 的 样本 协 方差 
column2) 
covar_samp(String columnNamel, Sting 。 | 聚合 函数 返回 两 列 的 样本 协 方差 


columnName2) 








计算 二 进 制 列 的 循环 元 余 校 验 值 (CRC32) ， 并 将 该 值 作 为 





crc32(Column e) bigint 返回 
- 窗口 函数 :返回 窗口 分 区 内 的 累积 值 分 布 ， 如 在 当前 行 下 的 
cume_ distO 


行 分 片 





current_date() 


current_timestamp() 


年 当前 日 期 作为 日 期 列 返回 
年 当前 时 间 戳 返回 为 时 间 戳 列 





date_ add(Column start, int days) 
date_format(Column dateExpr, String 
format) 


返回 是 开始 日 期 days 之 后 的 日 期 





date_sub(Column start, int days) 


返回 是 开始 日 期 days 之 前 的 日 期 





datediff(Column end, Column start) 





将 

将 

返 

将 日 期 /时 间 惟 /字符 串 转换 为 由 第 二 个 参数 指定 的 日 期 格式 
的 

返 

返 


返回 从 开始 日 期 到 终止 日 期 的 天 数 





dayofmonth(Column e) 


从 指定 的 日 期 /时 间 戳 /字符 串 中 提取 一 个 月 中 的 某 一 天 为 





dayofyear(Column e) 


.540 。 








从 给 定 的 日 期 /时 间 戳 /字符 串 中 提取 一 年 中 的 日 期 作为 整数 


第 14 章 


Spark 商业 案例 之 电 商 交互 式 分 析 系统 应 用 案例 








函 数 名 


decode(Column value, String charset) 


函数 功能 
使 用 提供 的 字符 集 ( ‘US-ASCIT,TSO-8859-1',UTF-8’, 
“UTF-16BE’”,“UTF-16LE*,‘UTF-16*) ， 将 第 一 个 参数 从 二 进 
制 计 算 为 字符 串 








degrees(Column e) 将 以 弧度 测量 的 角度 转换 为 以 度 为 单位 测量 的 近似 等 效 角 度 
degrees(String columnName) 将 以 弧度 测量 的 角度 转换 为 以 度 为 单位 测量 的 近似 等 效 角 度 

窗口 函数 : 返回 窗口 分 区 中 的 行 的 排名 ， 排 名 无 间隔 。 密 集 
etse dkd) 排名 和 排名 的 区 别 : 例如 ， 第 一 名 有 1 人 ， 第 二 名 并 列 有 3 


人 ， 那 么 在 密集 排名 中 ， 下 一 个 人 的 排名 是 第 三 名 
般 排名 中 ， 下 一 个 人 的 排名 是 第 五 名 


; 而 在 一 











desc nulls_first(String columnName) 返回 基于 列 的 降序 的 排序 表达 式 ， 空 值 出 现在 非 空 值 之 前 
desc_nulls last(String columnName) 根据 列 的 降序 返回 排序 表达 式 ， 空 值 显示 在 非 空 值 后 面 


desc(String columnName) 








根据 列 的 降序 返回 排序 表达 式 





encode(Column value, String charset) 


exp(Column e) 

exp(String columnName) 
explode(Column e) 
expml(Column e) 
expml(String columnName) 


expr(String expr) 


factorial(Column e) 

first(Column e) 

first(Column e, boolean ignoreNulls) 
first(String columnName) 
first(String columnName, boolean 
ignoreNulls) 

floor(Column e) 

floor(String columnName) 


使 用 提供 的 字符 集 (“US-ASCIT’” , ‘ISO-8859-1’, “UTF-8”， 

“UTF-16BE”, “UTF-16LE”,“UTF-16') ， 将 第 一 个 参数 
字符 串 转 为 二 进 制 数据 

计算 给 定 值 的 指数 


计算 给 定 列 的 指数 
为 给 十 炒 组 惑 史 遇 列 下 的 每 个 二 罕 创 建 -个 新 行 











疹 表 这 式 宁 位 市 解 太 到 它 所 代表 的 刚直 类 似 于 
DataFrame.selectExpr 

计算 给 定 值 的 阶乘 

聚合 函数 : 返回 组 中 的 第 一 个 值 

聚合 函数 : 返回 组 中 的 第 一 个 值 

聚合 函数 : 返回 组 中 列 的 第 一 个 值 

聚合 函数 : 返回 组 中 列 的 第 一 个 值 

计算 给 定 值 的 下 限 

计算 给 定 值 的 下 限 





format_number(Column x, int d) 


将 数字 列 x 格式 化 为 类 似 “# 拙 # 拓 开拓 ”的 格式 ， 四 舍 五 入 
为 4 个 小 数位 ， 并 将 结果 作为 字符 串 列 返 回 





format_string(String format, Column.. 
arguments) 


格式 化 printf 风格 的 参数 ， 并 将 结果 作为 字符 串 列 返 


孔 





format_string(String format, scala.collection 


Seq<Column> arguments) 


from json(Column e, String schema, java. 


util.Map<String,String> options) 





格式 化 printf 风格 的 参数 ， 并 将 结果 作为 字符 串 列 返 回 


使 用 指定 的 模式 将 包含 JSON 字符 串 的 列 解析 为 StructType 
元 素 





from json(Column e, StructType schema) 


使 用 指定 的 模式 将 包含 JSON 字符 串 的 列 解析 为 StuctType 
元 素 





from json(Column e，StructType schema, 


scala.collection.immutable.Map<String,Strin 
g> options) 


(适用 于 Scala) 将 包含 JSON 字符 串 的 列 解 析 为 StructType 
具有 指定 模式 的 列 
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函 数 名 


from json(Column e, StrctType schema, 


Java.util.Map<String,String> options) 


from unixtime(Column ut) 


from unixtime(Column ut String f) 


续 表 
函数 功能 

(适用 于 Java) 将 包含 JSON 字符 串 的 列 解析 为 StructType 具 
有 指定 模式 的 字符 串 

将 从 UNIX 纪元 (1970-01-01 00:00:00 UTC) 的 秒 数 转 换 为 
表示 当前 系统 时 区 中 给 定格 式 的 时 间 字 符 串 

将 从 UNIX 纪元 (1970-01-01 00:00:00 UTC) 的 秒 数 转换 为 
表示 当前 系统 时 区 中 给 定格 式 的 时 间 字符 串 








from utc_timestamp(Colummn ts, String tz) 





根据 UTC 中 特定 时 间 对 应 的 时 间 截 , 返回 与 给 定时 区 中 的 相 
同时 间 对 应 的 时 间 戳 








get json_object(Column e, String path) 


从 基于 指定 路 径 的 JSON 字符 串 中 提取 JSON 对 象 ， 并 返回 
提取 的 JSON 对 象 的 JSON 字符 串 





greatest(Column... exprs) 
greatest(scala.collection.Seq<Column> 
exprs) 

greatest(String columnName, scala. 
collection.Seq<String> columnNames) 


greatest(String columnName, String... 
columnNames) 


grouping_id(scala.collection.Seq<Column> 
cols) 


grouping id(String colName, scala. 
collection.Seq<String> colNames) 


grouping(Column e) 


grouping(String columnName) 


返回 值 列表 中 最 大 的 值 ， 跳 过 空 值 
返回 值 列 表 中 最 大 的 值 ， 跳 过 空 值 


党 


回 列 名 列表 中 最 大 的 值 ， 跳 过 空 值 





返回 列 名 列表 中 最 大 的 值 ， 跳 过 空 值 


聚合 函数 : 返回 分 组 的 级 别 , 等 同 于 (grouping(c1) <<; (n-1)) + 
(grouping(c2) <<; (n-2)) + ... + grouping(cn) 

聚合 函数 : 返回 分 组 的 级 别 , 等 同 于 (grouping(c1) <<; (n-1)) + 
(grouping(c2) <<; (n-2)) + ... + grouping(cn) 

聚合 函数 : 指示 GROUP BY 列表 中 的 指定 列 是 否 已 聚合 , 在 
结果 集中 返回 1 表示 聚合 ， 返 回 0 表示 未 聚合 

聚合 函数 : 指示 GROUP BY 列表 中 的 指定 列 是 否 已 聚合 , 在 
结果 集中 返回 1 表示 聚合 ， 返 回 0 表示 未 聚合 




















hash(Column... cols) 计算 给 定 列 的 哈 希 码 ， 并 将 结果 作为 int 列 返 回 
hash(scala.collection.Seq<Column> cols) 计算 给 定 列 的 哈 希 码 ， 并 将 结果 作为 int 列 返回 
hex(Column column) 计算 给 定 列 的 十 六 进 制 值 

hour(Column e) 从 给 定 的 date/timestamp/string 中 提取 小 时 作为 整数 
hypot(Column 1, Column 7) 计算 sqrt(a^2^+b^2 人 的 值 ， 匹 中 间 溢 出 或 下 溢 
hypot(Column 1, double 1) 计算 sqrt(a^2^+b^2^) 的 值 ， 无 中 间 溢 出 或 下 溢 
hypot(Column 1, String rightName) 计算 sqrt(a*2^+b"2^) 的 值 ， 无 中 间 溢 出 或 下 溢 
hypot(double 1, Column 1) 计算 sqrt(a^2^+b^2^) 的 值 ， 无 中 间 洲 出 或 下 洲 
hypot(double 1, String rightName) 计算 sqrt(a^*2^+b^2^) 的 值 ， 无 中 间 溢 出 或 下 溢 
hypot(String leftName, Column 1) 计算 sqrt(a^2^+b^2^) 的 值 ， 无 中 间 溢 出 或 下 溢 
hypot(String leftName, double 1) 计算 sqrt(a^2^+b^2^) 的 值 ， 无 中 间 洲 出 或 下 泣 
hypot(String leftName, String rightName) 计算 "sqrt(a^2^+b^2^) 的 值 ， 无 中 间 溢 出 或 下 溢 


initcap(Column e) 


通过 将 每 个 单词 的 第 一 个 字母 转换 为 大 写 ， 返 回 一 个 新 的 字 
符 串 列 。 例 如 ， 将 hello world 转化 为 Hello World 





input_ file name() 


为 当前 Spark 任务 的 文件 名 创建 一 个 字符 囊 列 





instr(Column str, String substring) 


找到 给 定 字符 串 中 第 一 次 出 现 截取 部 分 字符 串 的 位 置 





isnan(Column e) 


如 果 列 为 非 数 字 值 的 特殊 值 NaN， 则 返回 tme 








isnull(Column e) 


如 果 列 为 室 ， 则 返回 true 
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续 表 
函 数 名 函数 功能 
json_tuple(Column json, scala.collection. 


Seq<String> fields) 
json_tuple(Column json, String... fields) 


根据 给 定 的 字段 名 称 为 JSON 列 创建 一 个 新 行 
据 给 定 的 字段 名 称 为 JSON 列 创 建 一 个 新 行 





kurtosis(Column e) 
kurtosis(String columnName) 


合 函 数 : 入 参 为 列 ， 返 回 组 中 值 的 峰 度 








lag(Column e, int offset) 


根 

聚 

聚合 函数 : 入 参 为 字符 串 ， 返 回 组 中 值 的 峰 度 

窗口 函数 : 返回 当前 行 offset 之 前 的 行 的 值 ， 如 果 当 
前 的 行 少 于 offset 行 ， 则 返回 null 值 


前 行 之 





lag(Column e, int offset Object 
defaultValue) 


窗口 函数 : 返回 当前 行 offset 之 前 的 行 的 值 ， 如 果 当 前 行 之 
前 的 行 少 于 offset 行 ， 则 返回 null 值 









lag(String columnName, int offset) 
lag(String columnName, int offset, Object 
defaultValue) 

last_day(Column e) 


last(Column e) 

last(Column e, boolean ignoreNulls) 
last(String columnName) 

last(String columnName, boolean 
ignoreNulls) 


lead(Column e, int offset) 


lead(Column e, int offset, Object 
defaultValue) 


lead(String columnName, int offset) 


lead(String columnName, int offset, Object 
defaultValue) 


窗口 函数 : 返回 当前 行 offset 之 前 的 行 的 值 ， 如 果 当 前 行 之 
前 的 行 少 于 offset 行 ， 则 返回 null 值 

窗口 函数 : 返回 当前 行 offset 之 前 的 行 的 值 ， 如 果 当 前 行 之 
前 的 行 少 于 offset 行 ， 则 返回 null 值 

给 定 日 期 列 ， 返 回 给 定 日 期 所 属 的 月 份 的 最 后 一 天 。 例 如 ， 
输入 “2015-07-27”， 返 回 “2015-07-31”, 7 月 31 日 是 2015 
年 7 月 的 最 后 一 天 

聚合 函数 : 返回 组 中 的 最 后 
聚合 函数 : 返回 组 中 的 最 后 
聚合 函数 : 返回 组 中 列 的 最 后 
聚合 函数 : 返回 组 中 列 的 最 后 
窗口 函数 : 返回 当前 行 offset 之 后 的 行 的 值 ， 
后 的 行 少 于 offset 行 ， 则 返回 null 值 

窗口 函数 : 返回 当前 行 offset 之 后 的 行 的 值 ， 
后 的 行 少 于 offset 行 ， 则 返回 null 值 

窗口 函数 : 返回 当前 行 offset 之 后 的 行 的 值 ， 
后 的 行 少 于 offset 行 ， 则 返回 null 值 

窗口 函数 : 返回 当前 行 offset 之 后 的 行 的 值 ， 
后 的 行 少 于 offset 行 ， 则 返回 null 值 











个 值 
-个 值 
-个 值 


-个 值 





如 果 当 前 行 之 


如 果 当前 行 之 


如 果 当 前 行 之 





如 果 当 前 行 之 








least(Column... exprs) 
least(scala.collection.Seq<Column> exprs) 


返回 值 列表 的 最 小 值 ， 跳 过 空 值 
返回 值 列表 的 最 小 值 ， 跳 过 空 值 








least(String columnName, scala.collection. 











SEN 返回 同一 行 中 多 个 列 的 最 小 值 ， 跳 过 空 值 
least(String columnName, String... 扳 回 同一 行 让 的 最 小 人 ss 
GON anies) 返回 同一 行 中 多 个 列 的 最 小 值 ， 跳 过 空 值 
length(Column e) 计算 给 定 字 符 串 或 二 进 制 列 的 长 度 





levenshtein(Column 1 Column D) 


计算 两 个 给 定 字 符 串 列 的 编辑 距离 。 含 义 为 两 个 字符 串 之 间 ， 
由 一 个 字符 串 转 换 成 另 一 个 字符 串 所 需 的 最 少 编辑 操作 次 数 





lit(Object literal) 


创建 [Column] 的 字面 量 值 





locate(String substr, Column str) 


找到 第 一 次 出 现 的 截取 字符 串 的 位 置 





locate(String substr, Column str, int pos) 
log(Column e) 


在 位 置 pos 后 的 字符 串 列 中 找到 截取 字符 串 的 第 
计算 给 定 值 的 自然 对 数 


-个 位 置 





log(double base, Column a) 





返回 第 二 个 参数 的 基于 第 一 个 参数 的 对 数 





log(double base, String columnName) 





返回 第 二 个 参数 的 基于 第 一 个 参数 的 对 数 
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续 表 
函 数 名 函数 功能 
log(String columnName) 计算 给 定 列 的 自然 对 数 
log10(Column e) 计算 以 10 为 底 的 给 定 值 的 对 数 
log10(String columnName) 计算 以 10 为 底 的 给 定 值 的 对 数 
loglp(Column e) 计算 给 定 值 的 自然 对 数 加 一 
loglp(String columnName) 计算 给 定 列 的 自然 对 数 加 一 
log2(Column expr) 计算 以 2 为 底 的 给 定 列 的 对 数 
log2(String columnName) 计算 以 2 为 底 的 给 定 值 的 对 数 
lower(Column e) 将 字符 串 列 转换 为 小 写 





lpad(Column str, int len, String pad) 


Left-pad 字符 串 列 





ltrim(Column e) 
map(Column... cols) 


修剪 指定 字符 串 值 的 左 端 空格 


将 输入 的 key-value 键 值 对 转换 为 新 的 列 





map(scala.collection.Seq<Column> cols) 
max(Column e) 
Imax(String columnName) 


md5(Column e) 


mean(Column e) 

mean(String columnName) 

min(Column e) 

min(String columnName) 
minute(Column e) 
monotonically_increasing id0 
monotonicallyIncreasingId() 
month(Column e) 
months_between(Column datel, Column 
date2) 


nanvl(Column coll, Column col2) 


将 输入 的 key-value 键 值 对 转换 为 新 的 列 


聚合 函数 : 返回 组 中 表达 式 的 最 大 值 
聚合 函数 : 返回 组 中 列 的 最 大 值 


计算 二 进 制 列 的 MD5 摘要 ， 并 将 该 值 作为 32 个 字符 的 十 六 


进 制 字符 串 返回 
聚合 函数 : 返回 组 中 值 的 平均 值 
聚合 函数 : 返回 组 中 值 的 平均 值 
聚合 函数 : 返回 组 中 表达 式 的 最 小 值 
聚合 函数 : 返回 组 中 列 的 最 小 值 
从 给 定 的 日 期 /时 间 戳 /字符 串 中 提取 分 
生成 单调 递增 的 64 位 整数 的 列表 达 式 
已 弃 用 
从 给 定 的 日 期 /时 间 戳 /字符 串 中 提取 月 











钟 作为 整数 


份 作为 整数 


返回 从 日 期 datel 到 日 期 date2 之 间 的 月 数 
如 果 coll 不 是 NaN， 则 返回 coll; 如 果 coll 为 NaN， 则 返回 


col2 





negate(Column e) 


取 相 反 数 





Dext_ day(Column date, String dayOf Week) 


给 定 日 期 列 ， 返 回 比 指定 的 星期 列 的 值 晚 的 第 一 个 日 期 。 例 


如 ，next_day(“2015-07-27”, "Sunday" 


为 2015-08-02 是 2015-07-27 之 后 的 第 


) 返 回 2015-08-02， 因 
-个 星期 天 






































not(Column e) 布尔 表达 式 的 取 反 
窗口 函数 :在 一 个 有 序 的 窗口 分 区 返回 ntile 组 ID( 从 1 到 7z)。 
ntile(int n) 例如 ， 如果 是 4, 第 一 部 分 的 行将 得 到 值 1, 第 二 部 分 的 行 
将 获得 值 2， 第 三 部 分 将 获得 值 3， 最 后 一 部 分 将 获得 值 4 
percent rankO) 窗口 函数 : 返回 相对 排名 等 同 于 SQL 的 percent_rank 功能 
pmod(Column dividend, Column divisor) 返回 被 除数 mod 除数 的 正 值 
posexplode(Column e) 为 给 定数 组 或 映射 列 中 具有 位 置 的 每 个 元 素 创建 一 个 新 行 
pow(Column 1, Column 7) 返回 第 一 个 参数 的 值 增加 到 第 二 个 参数 的 究 
pow(Column 1, double 7) 返回 第 一 的 值 增加 到 第 二 个 参数 的 寡 
pow(Column 1, String rightName) 返回 第 一 的 值 增加 到 第 二 个 参数 的 窘 
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函 数 名 函数 功能 

pow(double 1, Column D 返回 第 一 个 参数 的 值 增加 到 第 二 个 参 
pow(double L String rightName) 返回 第 一 个 参数 的 值 增加 到 第 二 
pow(String leftName, Column D 返回 第 一 的 值 增加 到 第 二 
pow(String leftName, double 1) 返回 第 一 个 参数 的 值 增加 到 第 二 个 LE 
pow(String leftName, String rightName) 返回 第 一 个 参数 的 值 增加 到 第 二 个 参数 的 究 
quarter(Column e) 从 给 定 的 日 期 /时 间 戳 /字符 串 中 提取 季度 作为 整数 

将 以 度 为 单位 测量 的 角度 转换 为 以 弧度 为 单位 测量 的 近似 等 
radians(Column e) 效 角度 
EN 0 为 单位 测量 的 角度 转换 为 以 弧度 为 单位 测量 的 近似 等 
rand0 从 U[0.0, 1.0] 生 成 独立 相同 分 布 样本 的 随机 列 
rand(long seed) 从 U[0.0, 1.0] 生 成 独立 相同 分 布 样本 的 随机 列 
randn() 从 标准 正 态 分 布 生成 独立 相同 分 布 样本 列 
randn(long seed) 从 标准 正 态 分 布 生成 独立 相同 分 布 样本 列 
IankO) 窗口 函数 : 返回 窗口 分 区 中 的 行 的 排名 


Tegexp_extract(Column e，String exp, int 
groupIdx) 

Tegexp_replace(Column e, Column pattern, 
Column replacement) 
regexp_replace(Column e, String pattem, 
String replacement) 

repeat(Column str, int n) 

reverse(Column str) 

rint(Column e) 

rint(String columnName) 

round(Column e) 


round(Column e, int scale) 


row_number() 





从 
替换 正则 表达 式 匹配 的 指定 的 字符 串 值 的 所 有 值 
替 


换 正 则 表达 式 匹配 的 指定 的 字符 串 值 的 所 有 值 


指定 的 字符 串 列 中 抽取 由 Java 正则 表达 式 匹 配 的 特定 组 





i 复 一 个 字符 串 列 次， 并 返回 一 个 新 的 字符 串 列 


转 字 符 串 列 ， 并 将 其 作为 新 的 字符 串 列 返 回 


返回 一 个 与 参数 最 接近 的 double 值 ， 其 等 于 一 个 整数 


返回 e 四 舍 五 入 为 小 数 点 后 0 位 的 列 的 值 


scale 小 于 0， 则 舍 入 为 整数 部 分 
窗口 函数 : 返回 在 窗口 分 区 中 从 1 开始 的 序列 号 





重 
反 
返 
返回 一 个 与 参数 最 接近 的 double 值 ， 其 等 于 一 个 整数 
返 
如 


果 大 于 或 等 于 0， 则 将 值 四 舍 五 入 e 到 scale 小 数位 ， 如 果 





Ipad(Column str, int len, String pad) 


将 长 度 为 len 的 列 进行 右 填充 




















rtrim(Column e) 修剪 指定 字符 串 值 的 右 端的 空格 

second(Column e) 从 给 定 的 日 期 /时 间 戳 /字符 串 中 提取 秒 数 作为 整数 

shal(Column e) i 算 二 进 制 列 的 SHA-1 摘要 ， 并 将 该 值 作 为 40 个 字符 的 
-六 进 制 字符 串 返回 

sha2(Column e, int numBits) 人 项 函数 的 SHA2 系列 关 将 该 值 作为 六 

shiftLeft(Column e, int numBits) 将 给 定 值 左 移 numBits 

shiftRight(Column e, int numBits) 将 给 定 值 右 移 numBits 


shiftRightUnsigned(Column e, int numBits) 


无 符号 移 位 将 给 定 值 右 移 numBits 





signum(Column e) 


计算 给 定 值 的 符号 








signum(String columnName) 计算 给 定 列 的 符号 
sin(Column e) 计算 给 定 值 的 正弦 值 
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续 表 
函 数 名 函数 功能 
sin(String columnName) 计算 给 定 列 的 正弦 
sinh(Column e) 计算 给 定 值 的 双 曲 正 弦 值 
sinh(String columnName) 计算 给 定 列 的 双 曲 正弦 值 
size(Column e) 返回 数组 或 map 的 长 度 
skewness(Column e) 聚合 函数 : 返回 组 中 值 的 偏 度 
skewness(String columnName) 聚合 函数 : 返回 组 中 值 的 偏 度 


sort_array(Column e) 


sort_array(Column e, boolean asc) 








根据 数组 元 素 的 自然 排序 ， 按 升序 对 给 定 列 的 输入 数组 进行 
排序 

根据 数组 元 素 的 自然 排序 ， 按 升序 或 降序 对 给 定 列 的 输入 数 
组 进行 排序 





soundex(Column e) 


返回 指定 表达 式 的 soundex 编码 





spark partition id() 

split(Column str, String pattern) 
sqrt(Column e) 

sqrt(String colName) 

stddev_pop(Column e) 

stddev_pop(String columnName) 
stddev_samp(Column e) 
stddev_samp(String columnName) 
stddev(Column e) 

stddev(String columnName) 
struct(Column... cols) 
struct(scala.collection.Seq<Column> cols) 
struct(String colName, scala.collection.Seq< 
String> colNames) 

struct(String colName, String... colNames) 


substring_index(Column str, String delim, 
int count) 


返回 分 区 人 D 
根据 正则 表 















组 中 表达 式 的 总 体 标准 偏差 
聚合 函数 : 返回 组 中 表达 式 的 总 体 标准 偏差 
聚合 函数 : 返回 组 中 表达 式 的 样本 标准 偏差 
聚合 函数 : 返回 组 中 表达 式 的 样本 标准 偏差 


聚合 函数 : [stddev_samp] 函 数 的 别名 

聚合 函数 : [stddev_samp] 函 数 的 别名 

创建 一 个 新 的 结构 列 

创建 一 个 新 的 结构 列 

创建 组 成 多 个 输入 列 的 新 结构 列 

创建 组 成 多 个 输入 列 的 新 结构 列 

返回 按 分 隔 符 从 字符 串 中 截取 计数 长 度 的 子 字符 串 。 如 果 计 
数 长 度 是 正 数 ， 则 分 隔 符 左 侧 截取 返回 ， 如 果 计 数 长 度 是 负 
数 ， 从 分 隔 符 右 侧 返回 。 匹 配 区 分 大 小 写 





substring(Column str, int pos, int len) 





当 str 是 String 类 型 ， 返回 以 字 节 开始 的 字 节 数组 的 片段 ; 当 
str 是 二 进 制 类 型 ， 返 回 从 pos 开始 ， 长 度 是 len 的 子 串 
































sum(Column e) 聚合 函数 : 返回 表达 式 中 所 有 值 的 总 和 

sum(String columnName) 聚合 函数 : 返回 给 定 列 中 所 有 值 的 总 
sumDistinct(Column e) 聚合 函数 : 返回 表达 式 中 不 同 值 的 总 和 
sumDistinct(String columnName) 聚合 函数 : 返回 表达 式 中 不 同 值 的 总 和 

tan(Column e) 计算 给 定 值 的 正切 值 

tan(String columnName) 计算 给 定 列 的 正切 值 

tanh(Column e) 计算 给 定 值 的 双 曲 正切 值 

tanh(String columnName) 计算 给 定 列 的 双 曲 正切 值 

to_date(Column e) 将 列 转换 为 日 期 类 型 

to_json(Column e) 将 StructType 格式 的 列 转换 为 指定 模式 的 JSON 字符 串 





.546 。 


第 14 章 “Spark 商业 案例 之 电 商 交互 式 分 析 系统 应 用 案例 








函 数 名 
to_json(Column e, scala.collection. 
immutable.Map<String, String> options) 
to_json(Column e, java.util. Map<String, 
String> options) 


to_utc_timestamp(Column ts, String tz) 


续 表 
函数 功能 

(适用 于 Scala) 将 StructType 格式 的 列 转换 为 指定 模式 的 
JSON 字符 串 

(适用 于 Java) 将 StmctType 格式 的 列 转换 为 指定 模式 的 
JSON 字符 串 

给 定时 间 戳 ， 其 对 应 于 给 定时 区 中 的 一 天 中 的 特定 时 间 ， 返 
回 对 应 于 UTC 中 的 同一 时 刻 的 另 一 时 间 戳 

















toDegrees(Column e) 


己 弃 用 





toDegrees(String columnName) 





已 弃 用 





translate(Column src, String matchingString, 
String replaceString) 


当 字符 串 中 的 字符 与 matchingString 匹配 时 ， 将 源 字符 串 使 
用 replaceString 蔡 换 掉 匹配 的 字符 串 





trim(Column e) 
trunc(Column date, String format) 


修剪 指定 字符 串 列 的 两 端的 空格 
返回 截断 到 由 格式 指定 的 单位 的 日 期 





static <RT> UserDefinedFunction 

static <RT,A1> UserDefinedFunction 

static <RT,A1,A2> UserDefinedFunction 
static <RT,A1,A2,A3> UserDefinedFunction 
static <RT,A1,A2,A3,A4> 
UserDefinedFunction 

static <RT,A1,A2,A3,A4,A5> 
UserDefinedFunction 

static <RT,A1,A2,A3,A4,A5,A6> 
UserDefinedFunction 

static <RT,A1,A2,A3,A4,A5,A6,A7> 
UserDefinedFunction 

static <RT,A1,A2,A3,A4,A5,A6,A7,A8> 
UserDefinedFunction 

static <RT,A1,A2,A3,A4,A5,A6,A7,A8,A9> 
UserDefinedFunction 

static <RT,A1,A2,A3,A4,A5,A6,A7,A8,A9, 
A10> UserDefinedFunction 


将 用 户 定义 的 0 个 参数 的 函数 定义 为 用 户 定义 函数 UDF) 
定义 1 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 CUDF) 
定义 2 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 CUDF) 
定义 3 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 〈UDF) 


定义 4 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 CUDF) 





定义 5 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 CUDF) 


定义 6 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 CUDF) 


定义 7 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 CUDF) 


定义 8 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 UDF) 





定义 9 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 UDF) 


定义 10 个 参数 的 用 户 定义 函数 作为 用 户 定义 函数 UDF) 





unbase64(Column e) 
unhex(Column column) 


解码 BASE64 编码 的 字符 串 列 ， 并 将 其 作为 二 进 制 列 返回 
二 六 进 制 取 反 





unix_timestamp() 


Unix_timestamp(Column s) 


unix_timestamp(Column s, String p) 


获取 当前 UNIX 时 间 惟 (以 秒 为 单位 》 

将 格式 为 yyyy-MM-dd HH: mm: ss 的 时 间 字 符 串 转换 为 
UNIX 时 间 戳 〈 以 秒 为 单位 ) ， 使 用 默认 时 区 和 默认 语言 环 
境 ， 如 果 失 败 ， 则 返回 null 

将 给 定 模式 的 时 间 字 符 串 (请 参见 [http://docs.oracle.com/ 
javase/tutorial/il8n/format/simpleDateFormat.html] ) 转换 为 
UNIX 时 间 惟 《以 秒 为 单位 ) ， 如 果 失 败 ， 则 返回 null 


























upper(Column e) 将 字符 串 列 转换 为 大 写 
var pop(Column e) 聚合 函数 : 返回 组 中 值 的 总 体 方差 
var pop(String columnName) 聚合 函数 : 返回 组 中 值 的 总 体 方差 





var_samp(Column e) 


聚合 函数 : 返回 组 中 值 的 无 偏方 差 





var_samp(String columnName) 





聚合 函数 : 返回 组 中 值 的 无 偏方 差 
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函 数 名 函数 功能 
variance(Column e) 聚合 函数 : [var samp] 函 数 的 别名 
variance(String columnName) 聚合 函数 : [var samp] 函 数 的 别名 
weekofyear(Column e) 从 给 定 的 日 期 /时 间 惟 /字符 串 中 提取 星期 为 整数 
评估 条 件 列 表 ， 并 返回 多 个 可 能 的 结果 表达 式 之 一 。 例 如 


when(Column condition, Object value) 











people.select(when(people("gender") "male", 0) 
-When(people("gender") 一 "female", 1) 
.otherwise(2)) 




















window(Column timeColumn，。 Sting | 入 定 一 个 时 间 截 指定 列 ， 生 成 深 动 时 间 窗 口 
windowDuration) 

te 给 定 一 个 时 间 戳 指定 列 ， 生 成 滚动 时 间 窗 口 
window(Column timeColumn, String 

windowDurationp， ”String ”slideDuration, | 给 定 一 个 时 间 惟 指定 列 ， 生 成 深 动 时 间 窗 口 
String startTime) 

year(Column e) 从 给 定 的 日 期 /时 间 戳 /字符 串 中 提取 年 为 整数 





Spark 2.2.0 版 本 的 functions.scala 的 源码 与 Spark 2.1.1 版 本 相 比 ， 新 增 的 函数 见 表 14-3 。 


表 14-3 Spark 2.2.0 版 本 中 的 functions.scala 源码 新 增 的 函数 


函 数 名 
typedLit(T literal, scala.reflect.api. 
TypeTags.TypeTag<T> evidence$1) 
to_timestamp(Column s, String fmt) 
to_timestamp(Column s) 
to_date(Column e, String fmt) 


explode_outer(Column e) 


posexplode_outer(Column e) 


from json(Column e，DataType schema., 
scala.collection.immutable.Map<String,S 
tring> options) 


函数 功能 
创建 一 个 列 的 字面 量 值 


以 指定 格式 将 时 间 字 符 串 转换 为 UNIX 时 间 惟 《以 秒 为 单位 ) 
将 时 间 字 符 串 转换 为 UNIX 时 间 惟 (以 秒 为 单位 ) 

将 列 转换 成 一 个 特定 格式 的 日 期 类 型 

为 给 定数 组 或 映射 列 中 的 每 个 元 素 创建 新 行 。 与 explode 不 同 ， 
如 果 数 组 或 map 为 null 或 空 ， 则 生成 poll 

使 用 给 定数 组 或 映射 列 中 的 位 置 为 每 个 元 素 创建 一 个 新 行 。 与 
posexplode 不 同 , 如 果 数 组 或 map 为 null 或 空 , 则 生成 row (null, 
null) 

(适用 于 Scala ) 解析 列 将 含有 一 个 JSON 字符 串 转换 为 
StructType 或 数组 类 型 指定 模式 的 StuctTypes 








from json(Column e，DataType schema., 
Java.util.Map<String,String> options) 


(适用 于 JAVA) 解析 列 将 含有 一 个 JSON 字符 串 转换 为 
StructType 或 数组 类 型 指定 模式 的 StuctTypes 





from json(Column e, DataType schema) 


解析 列 将 含有 一 个 JSON 字 符 串 转换 为 StructType 或 数组 类 型 指 
定 模 式 的 StructTypes 


14.4.2” 电 商 交 互 式 分 析 系 统 应 用 案例 完整 代码 


1. 电 商 交互 式 分 析 系 统 应 用 案例 代码 
Spark 商业 案例 之 电 商 交互 式 分 析 系统 应 用 案例 完整 代码 EB_Users_ Analyzer DateSetscala， 





如 例 14-1 所 示 。 
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【 例 14-1】EB Users _ Analyzer DateSet scala 代码 。 


EE 


5 


package com.dt.spark.sparksql 


import org.apache.1o0g4j.{Level, Logger} 

import org.apache.spark.SparkConf 

import org.apache.spark.sql.types.{DoubleType, StringType, StructField, 
StructType} 

import org.apache.spark.sql.{Row, SparkSession} 


/** 
* 版 权 : DT 大 数据 梦 工 厂 所 有 
* 时 间 : 2017 年 1 月 21 日 ; 
* 电 商 用 户 行为 分 析 系 统 : 在 实际 生产 环境 下 ， 一 般 都 是 以 J2EE+Hadoopt+Spark+DB 
* (Redis) 的 方式 实现 的 综合 技术 栈 ， 使 用 spark 进行 电 商 用 户 行为 分 析 时 一 般 都 都 会 是 交 
* 互 式 的 ， 什 么 是 交互 式 的 ? 
* 例如 , 营销 部 门人 员 按照 特定 时 间 查 询 访问 次 数 最 多 的 用 户 , 或 查询 购买 金额 最 大 的 前 TopN 
* 个 用 户 
* 这 些 分 析 结 果 对 于 公司 的 决策 、 产 品 研发 和 营销 都 至 关 重 要 ， 而 且 很 多 时 候 是 立即 想 要 结果 
* 的 ， 如 果 此 时 使 用 Hive 去 实现 ， 可 能 非常 缓慢 (如 需 1h) ， 而 在 电 商 类 企业 中 ， 经 过 深度 
*# 调 优 后 的 Spark 一 般 都 会 比 Hive 快 5 倍 以 上 ， 此 时 的 运行 时 间 可 能 就 是 分 钟 级 别 ， 这 时 就 可 以 
* 达到 即 查 即 用 的 目的 ， 也 就 是 所 谓 的 交互 式 ， 而 交互 式 的 大 数据 系统 是 未 来 的 主流 ! 
* 我 们 在 这 里 是 分 析 电 商用 户 的 多 维度 的 行为 特征 ， 例 如 ， 分 析 特 定时 间 段 访问 人 数 的 TopN、 
* 特定 时 间 段 购买 金额 排名 的 TopN、 注 册 后 一 周 内 购买 金额 排名 TopN、 注 册 后 一 周 内 访问 次 
*# 数 排名 TopN 等 ， 但 是 这 里 的 技术 和 业务 场景 同样 适合 于 门户 网 站 〈 如 网 易 、 新 浪 ) 等 ， 也 
* 同样 适合 于 在 线 教育 系统 〈 如 分 析 在 线 教 育 系统 的 学 员 的 行为 ) ， 当 然 也 适用 于 SNS 社交 
* 网 络 系统 ， 如 对 于 婚恋 网 ， 我 们 可 以 通过 这 几 节 课 讲 的 内 容 来 分 析 最 匹配 的 couple， 再 如 ， 
* 我 们 可 以 分 析 每 周 婚恋 网 站 访问 次 数 TopN， 这 时 就 可 以 分 析出 迫切 想 找到 对 象 的 人 ， 婚 恋 
* 网 站 可 以 基于 这 些 分 析 结 果 进 行 更 精准 和 更 有 效 (更 挣 钱 ) 的 服务 ! 





六 
* 
* 具体 数据 结构 如 下 所 示 : 
* User 
1-- name: string (nullable = true) 
1-- registeredTime: string (nullable = true) 
1-- userID: long (nullable = true) 
Log 
1-- consumed: double (nullable = true) 
1-- logID: long (nullable = true) 
1-- time: string (nullable = true) 
1-- typed: long (nullable = true) 
1-- userID: long (nullable = true) 
六 
* 注意 : 


* ”1 .在 实际 生产 环境 下 , 要 么 是 Spark SQL+Parquet 的 方式 , 要 么 是 Spark SQL+Hive 
* ”2. functions.scala 文 件 包 含 了 大 量 的 内 置 函数 ， 尤 其 在 agg 中 会 广泛 使 用 ， 请 反复 
* ”阅读 该 源码 并 进行 实践 ! 

*/ 


- Object EB Users Analyzer DateSet { 


case class UserLog (logID: Long, userID: Long, time: String, typed: Long, 
consumed: Double) 
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二 网 


case class Logonce (1ogID: Long, userID: Long, count: Long) 
case class ConsumedOnce (logID: Long, userID: Long, consumed: Double) 


def main (args: Array[String]){ 


Logger .getLogger ("org") .setLevel (Level .ERROR) 


var masterUrl = "local[8]"// 默 认 程 序 运行 在 本 地 Local 模式 中 ， 主 要 用 于 学 习 和 测试 


/** 
* 当 我 们 把 程序 打包 运行 在 集群 上 的 时 候 ， 一 般 都 会 传 入 集群 的 URL 信息 ， 这 里 我 们 假设 传 入 
* 参数 ， 第 一 个 参数 只 传 入 Spark 集群 的 URL， 第 二 个 参数 传 入 的 是 数据 的 地 址 信息 
*/ 

if(args.length > 0) { 
masterUrl = args (0) 


} 


/冰冰 
* 创建 Spark 会 话 上 下 文 SparkSession 和 集群 上 下 文 SparkContext， 在 SparkConf 
* 中 可 以 进行 各 种 依赖 和 参数 的 设置 等 ， 大 家 可 以 通过 SparkSubmit 脚本 的 help 去 查 
* 看 设置 信息 ， 其 中 SparkSession 统一 了 Spark SQL 运行 的 不 同 环境 
*/ 
val sparkConf = new SparkConf () .setMaster (masterUr1) .setAppName 
("EB Users Analyzer DateSet") 


/** 
*SparkSession 统一 了 Spark SQL 执行 时 的 不 同 的 上 下 文 环境 , 也 就 是 说 , Spark SQL 
* 无 论 运行 在 哪 种 环境 下 ， 我 们 都 可 以 只 使 用 SparkSession 这 样 一 个 统一 的 编程 入 口 
* 来 处 理 DataFrame 和 DataSet 编程 ， 不 需要 关注 底层 是 否 有 Hive 等 
*/ 

val spark = SparkSession 
.builder() 
.config(sparkConf) 


.getOrCreate () 


val sc = spark.sparkContext 
// 从 SparkSession 获得 的 上 下 文 ， 这 是 因为 我 们 读 原生 文件 的 时 候 或 者 实现 一 
// 些 Spark SQL 目前 还 不 支持 的 功能 的 时 候 需要 使 用 SparkContext 


import org.apache .spark.sql.functions . 
//2017 年 1 月 21 的 第 一 个 作业 : 通读 functions .scala 的 源码 
import spark.implicits. 


/1/2017 年 1 月 21 的 第 二 个 作业 : 根据 电 商 业务 分 析 需 要 用 户 编写 的 数据 ， 需 要 注意 的 是 ， 
// 任 何 实际 生产 环境 的 系统 都 不 止 一 个 数据 文件 或 者 不 止 一 张 表 

// 例 如 ， 这 里 的 电 商 用 户 行为 分 析 系统 肯定 至 少 有 用 户 的 信息 usersInfo， 同 时 肯定 至 少 
// 有 用 户 访问 行为 信息 usersAccessLog 


/** 
* 功能 一 : 特定 时 段 内 用 户 访问 电 商 网 站 排名 TopN: 
* ”第 一 个 问题 : 特定 时 段 中 的 时 间 是 从 哪里 来 的 ? 一 般 都 来 自 于 J2EE 调度 系统 ， 例 
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* ”如 一 个 营销 人 员 通 过 系统 传 入 了 2017.01.01~2017.01.10; 

78. * ”第 二 个 问题 : 计算 的 时 候 ， 我 们 会 使 用 哪些 核心 算 子 ? 如 Joijn、groupBy、agg 等 
* ” 算 子 , 在 agg 算 子 中 可 使 用 大 量 的 functions scala 函数 ，functions 的 内 置 函 
* ” 数 有 助 于 快速 实现 业务 计算 ; 

DE * ”第 三 个 问题 : 计算 完成 后 , 数据 保存 在 哪里 ? 现在 生产 环境 下 是 保存 在 DB、HBase/Canssandra、 
* Redis 等 

80 . bd 

8 * 

82- 

835 /** 
* 读 取 用 户 行文 数据 ， 建 议 使 用 parquet 的 方式 

84. */ 

85. val userInfo = spark.read.format ("parquet"). 

86. parquet ("data/sql/userparquet .parquet") 

87. val userLog = spark.read.format ("parquet"). 

88 . parquet ("data/sql/logparquet .parquet") 

89. 

90. 

91s Ve 


* 统计 特定 时 段 访问 次 数 最 多 的 Top5: 例如 2016-10-01 ~ 2016-11-01 
92 . */ 
9 val startTime = "2016-10-01" 
94. val endTime = "2016-11-01" 





95- 
96 . 
9 println ("统计 特定 时 段 访问 次 数 最 多 的 Top5: 例如 2016-10-01 ~ 2016-11-01 :") 
98 . userLog.filter ("time >= '" + startTime + "' and time <= '" + endTime 
+ "' and typed = 0") 
99. .join(userInfo，userInfo ("userID") === userLog ("userID")) 
00. .groupBy (userInfo ("userID"),userInfo ("name")) 
dT .agg (count (userLog ("1ogID") ) .alias ("userLogCount")) 
O25 .Sort ($"userLogCount".desc) 
LE -limit (5) 
04. .Show() 
D5 
06. 
07 . We 
08 . * 作业 : 生成 parquet 方式 的 数据 ， 其 自己 实现 时 间 函 数 ， 然 后 测试 整个 代码 
09. * val peopleDF = spark.read.json("examples/src/main/resources/ 
* people.json") 
0 // DataFrames 可 以 保存 为 Parqnet 文件 维护 schema 信息 
i peopleDF .write.parquet ("people.parquet") 
2 
3 // 读 取 上 面 创建 的 Parquet 文件 
TA // Parquet 是 自 描述 的 ， 模 式 schema 将 被 保存 
Eh // 加 载 parget 文件 的 结果 也 是 一 个 DataFrame 
116. val parquetFileDF = spark.read.parquet ("people.parquet") 
IE7: 守 
118. 
ED VA 


* 统计 特定 时 段 购买 次 数 最 多 的 Top 5: 例如 2016-10-01 ~ 2016-11-01 
20 */ 


T1218 println ("统计 特定 时 段 购买 次 数 最 多 的 Top5: 例如 2016-10-01 ~ 2016-11-01 :") 

2 userLog.filter ("time >= '" + startTime + "' and time <= '" + endTime 
+ "' and typed = 1") 

EE .join(userInfo, userInfo("userID") === userLog ("userID")) 

4 .groupBy (userInfo ("userID"),userInfo ("name")) 


2s 
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53 





156% 
5 


L158. 
50e 


160. 
L161 
162. 
L163 
164. 


w 


.agg (round (sum (userLog ("consumed")), 2) .alias ("totalConsumed") 
.sort ($"totalConsumed" .desc) 

=limit (5S) 

-Show 


/** 
* 统计 特定 时 段 访 问 次 数 增长 最 多 的 Top5 用 户 ， 例 如 这 周 比 上 周 访问 次 数 增长 最 
* 快 的 5 位 用 户 
* 实现 思路 : 一 种 非常 直接 的 方式 是 计算 这 周 每 个 用 户 的 访问 次 数 ， 同 时 计算 出 上 周 
* 每 个 用 户 的 访问 次 数 ， 然 后 相 减 并 进行 排名 , 但 是 这 种 实现 思路 比较 消耗 性 能 ,我 
* 们 可 以 采取 一 种 既 能 实现 业务 目标 ， 又 能 提升 性 能 的 方式 ， 即 把 这 周 的 每 次 用 户 访 
* 问 计数 为 1， 把 上 周 的 每 次 用 户 访问 计数 为 -1， 青 在 agg 操作 中 采用 sum 即 可 
* 巧妙 地 实现 增长 趋势 的 量化 
*/ 
val userLogDS = userLog.as[UserLog] .filter ("time >= '2016-10-08" 
and time <= '2016-10-14' and typed = '0'") 
-map (1og => LogOnce(log.logID, log.userID, 1) ) 
.union (userLog.as[UserLog] .filter ("time >= '2016-10-01' and 
time <= '2016-10-07' and typed = '0'") 
-map(log => LogOnce(log.1logID, log.userID, -1) )) 


println ("统计 特定 时 段 访问 次 数 增长 最 多 的 Top5 用 户 ， 例 如 这 周 比 上 周 访问 次 
数 增长 最 快 的 5 位 用 户 : ") 
userLogDS .join (userInfo，userLogDS ("userID") UserInfo ("userID")) 
.groupBy (userInfo("userID"),userInfo ("name")) 
.agg (sum(userLogDs ("count")) .alias ("viewCountIncreased")) 
.Sort ($"viewCountIncreased".desc) 
.limit (5) 
.show () 








/** 
* 统计 特定 时 段 购买 金额 增长 最 多 的 Top5 用 户 ， 例 如 这 周 比 上 周 访问 次 数 增长 最 
* 快 的 5 位 用 户 
*/ 
println ("统计 特定 时 段 购买 金额 增长 最 多 的 Top5 用 户 ， 例 如 这 周 比 上 周 访问 次 
数 增长 最 快 的 5 位 用 户 : ") 
val userLogConsumerDS = userLog.as[UserLog] .filter("time >= 
"2016-10-08' and time <= '2016-10-14' and typed == 1") 
.map (1og => ConsumedOnce (lo0g.1o0gID, log.userID, log.consumed) ) 
.union(userLog.as[UserLog] .filter ("time >= '2016-10-01' and 
time <= '2016-10-07' and typed == 1") 
.map(log => Consumedonce (10g.1logID, log.userID, -log.consumed) ) 


UserLogConsumerDS .join (userInfo, userLogConsumerDs ("userID") 
=== userInfo ("userID")) 

.groupBy (userInfo ("userID"),userInfo ("name")) 

.agg (round (sum (userLogConsumerDs ("consumed")), 2) .alias ("view 

ConsumedIncreased")) 

.sort ($S"viewConsumedIncreased" .desc) 

:Limit(s) 

-Show() 


/** 


第 14 章 Spark 商业 案例 之 电 商 交互 式 分 析 系统 应 用 案例 








件 ， 





* 统计 注册 后 前 两 周 内 访问 最 多 的 前 10 个 人 
println (" 统 计 注册 后 前 两 周 内 访问 最 多 的 前 Top10:") 
userLog.join (userInfo，userInfo ("userID" = userLog ("userID")) 
.filter(userInfo("registeredTime") >= "2016-10-01" 
&& userInfo("registeredTime") <= "2016-10-14" 
&& userLog("time") >= userInfo ("registeredTime") 
&& userLog ("time") <= date add(userInfo ("registeredTime"), 14) 
&& userLog("typed") === 0) 
.groupBy (userInfo ("userID"),userInfo ("name")) 
.agg (count (userLog ("lo0gID")) .alias ("logTimes")) 
.sort ($"logTimes".desc) 
-limit (10) 
.show () 





/** 
* 统计 注册 后 前 两 周 内 购买 总 额 最 多 的 前 10 个 人 
下 


让 
println (" 统 计 注 册 后 前 两 周 内 购买 总 额 最 多 的 Top 10 :") 
userLog.join (userInfo，userInfo("userID") = userLog ("userID")) 
-filter (userInfo("registeredTime") >= "2016-10-01" 
&& userInfo("registeredTime") <= "2016-10-14" 
&& userLog("time") >= userInfo("registeredTime") 
&& userLog("time") <= date add(userInfo("registeredTime"), 








&& userLog("typed") === 1) 
.groupBy (userInfo("userID"),userInfo ("name")) 
.agg (round (sum (userLog ("consumed") ) ,2) .alias ("totalConsumed")) 
.sort($"totalConsumed" .desc) 
.limit (10) 
.Show() 


//while (true){} // 和 通过 Spark Shell 运行 代码 可 以 一 直 看 到 Web 终端 
// 的 原理 一 样 ， 因 为 Spark Shell 内 部 有 一 个 LOOP 循环 


sceSEop(). 


2. 电 商 交互 式 分 析 系 统 应 用 模拟 数据 生成 代码 





电 商 交互 式 分 析 系 统 应 用 模拟 数据 生成 代码 ， 分 别 生成 用 户 信息 文件 、 用 户 访问 记录 文 
如 例 14-2 所 示 。 


【 例 14-2】Mock EB_ Users _ Data.scala 代码 。 


:3 package com.dt.spark.SparkApps.sql; 


import 
import 
import 
import 
import 
import 
import 
. import 


PpOWoOAIANAOND 


POoO. 


java.text.SimpleDateFormat; 
java.util.Date; 
java.io.FileOutputSstream; 
java.io.OutputStreamWriter; 
java.io.PrintWriter; 
java.text .ParseException; 
java.util.Calendar; 
java.util.Random; 


:a 


中 篇 “商业 案例 








12. /wy 

13. * 电 商 数据 自动 生成 代码 ， 数 据 格式 如 下 : 

14. * 用 户 信 息 文 件 : 用 户 数据 {"userID": 0，"name": "spark0", "registeredTime": 
* "2016-10-11 18:06:25"} 

15. * 用 户 访 问 记录 文件 : 日 志 数 据 {"logID": 00, "userID": 0, "time": "2016-10-04 
*15:42:45", "typed": 0; “consumed”": 0.0} 








下 本 

17. public class Mock EB Users Data { 

185 

= public static void main (String[] args) throws ParseException { 

20 . A/ 

* 通过 传递 进来 的 参数 生成 指定 大 小 规模 的 数据 

2 */ 

22。 

A long numberItems = 1000; 

24. String dataPath = "data/Mock EB Users Data/"; 

Es 

2 if (args.length > 1) { 

a numberItems = Integer.valueOf (args[0]); 

28. dataPath = args[1]; 

09 } 

30. System.out.println("User log number is : " + numberItems); 

< mockUserData (numberItems, dataPath); 

号 25 mockLogData (numberItems, dataPath); 

SS 

号 4 下 

35e 

3 private static void mockLogData (long numberItems, String dataPath) { 

六 ATLogIDn 00, "useriD":.0. “time"s “2016=10-04 15:42545”, "typed": 

0, "consumed": 0.0} 

< 性 人 StringBuffer mock Log Buffer = new StringBuffer(""); 

392 Random random = new Random(); 

40. for (int i = 0; i < numberItems; i++) { //userID 

明生 for (int j = 0; j < numberItems; j++) { 

42. String initData = "2016-10-"; 

43. // 拼 接 随机 时 间 字 符 串 randomData 

44. String randomData = String.format ("%s%02d%s%02d%s%02d% 
ss02d", initData, random.nextInt (31) 

45- 7 " ", random.nextInt (24) 

46. 六 , random.nextInt (60) 

47. +: ":", random.nextInt(60)); 

48. String result = "{\"logID\": " + String.format("%02d", j) 
ANDserIDN "i" NtimN "Nn + randomData + "\m Nn 

49. "typed\":"+String.format ("%01ld", random.nextInt (2)) + 

50 . ",\"consumed\":" + String.format ("%.2f", random. 

nextDouble() * 1000)+ "™}"; 

SE 

与 又 < 

十 mock Log Buffer.append(result) 

克 A -append ("\n") 7 

二 

56. | 

本 本 下 

58. System.out.println (mock Log Buffer); 

局 PrintWriter PrintWriter = null; 

60 . 二 长 

61. // 保 存 到 JSON 文件 

在 2 printWriter = new PrintWriter (new OutputStreamWriter( 

63 . new FileOutputStream(dataPath + "Mock EB Log Data.json"))); 

64. printWriter.write (mock Log Buffer.toSstring()); 

65. } catch (Exception e) { 
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66. // 待 办 事项 : 自动 生成 catch 块 

67. e-printStackTrace (); 

68. yeinalliy /i 

69. printWriter.close(); 

70. } 

J 

7T2. 

173 } 

74 

he private static void mockUserData(long numberItems, String dataPath) { 

76. StringBuffer mock User Buffer = new StringBuffer(""); 

了 点 本 Random random = new Random(); 

TB for (int i = 0; i < numberItems; i++) { 

79. String initData = "2016-10-"; 

80. // 拼 接 随机 时 间 字 符 串 randomData 

SHE String randomData = String.format ("%s%02d%s%02d%s%02d%s%02d", 
initData, random.nextInt (31) 

B25 7 " ", random.nextInt (24) 

935 7 ":", random.nextInt (60) 

84. ,1 ":", random.nextInt (60)); 

85- String result = "{\"userID\": "+i+", \"name\": \"spark" + 
LN \"registeoredTimeN" se Nm" + randomData TF wh 

86. mock User Buffer.append (result) .append ("\n"); 

Bs 

88. 

89< } 

90 . System.out .println (mock User Buffer); 

91. PrintWriter printWriter = null; 

本 有 tey { 

93. // 保 存 到 JSON 文件 

94. printWriter = new PrintWriter (new OutputStreamWriter( 

95. new FileOutputStream(dataPath + "Mock FB Users Data.json"))); 

96. printWriter.write (mock User Buffer.toString()); 

9 了 } catch (Exception e) { 

98. // 待 办 事项 : 自动 生成 catch 块 

99. e.printstackTrace (); 

100. } finally { 

4035 printWriter.close(); 

025 1 

03E } 

104. } 


14.5 本 章 总 结 


本 章 基 于 Spark 2.2.0 框架 ， 详 细 痢 述 了 特定 时 间 段 内 用 户 访问 电 商 网 站 排名 TopN、 特 
定时 段 购买 金额 Top10 和 访问 次 数 增长 Top10 及 纯粹 通过 DataSet 进行 电 商 交互 式 分 析 系 统 


nm 


bh 各 种 类 型 的 TopN 实战 , 包括 统计 特定 时 间 段 购买 金额 最 多 的 Top5 月 








入 于 读者 跨 入 Spark DataSet 编码 殿堂 。 


日 户 、 访问 次 数 增长 最 


多 的 Top5 用 户 、 购 买 金额 增长 最 多 的 Top5 用 户 ， 统 计 注 册 之 后 前 两 周 内 访问 最 多 的 Top10 
用 户 、 前 两 周 内 购买 总 额 最 多 的 Top10 用 户 。 深 入 掌握 电 商 交互 式 分 析 系 统 应 用 案例 ， 将 有 


a 


第 15 章 ”Spark 商业 案例 之 NBA 篮球 运动 
员 大 数据 分 析 系 统 应 用 案例 


本 章 讲 解 Spark 商业 案例 之 NBA 篮球 运动 员 大 数据 分 析 系统 应 用 案例 ， 基 于 NBA 球员 
1970 年 至 2016 年 的 历史 数据 ， 统 计 分 析 每 年 NBA 球员 比赛 的 各 项 数据 。 





15.1 NBA 篮球 运动 员 大 数据 分 析 系 统 架 构 和 实现 思路 


NBA 篮球 运动 员 大 数据 分 析 决 策 支持 系统 : 基于 NBA 球员 历史 数据 1970 年 至 2016 年 
各 种 表现 ， 为 全 方位 分 析 球 员 的 技能 ， 构 建 最 强 NBA 篮球 团队 做 数据 分 析 支 撑 系 统 。 曾 经 
非常 火爆 的 梦幻 篮球 是 基于 现实 中 的 篮球 比赛 数据 根据 对 手 的 情况 制定 游戏 的 先 发 阵 容 和 比 
赛 结 果 《〈 也 就 是 说 ， 比 赛 结果 是 由 实际 结果 决定 的 ) ， 游 戏 中 可 以 管理 球员 ， 例 如 调整 比赛 
的 阵容 ， 其 中 也 包括 裁员 、 签 入 和 交易 等 。 而 这 里 的 大 数据 分 析 系 统 可 以 被 认为 是 游戏 背后 
的 数据 分 析 系 统 。 

具体 的 数据 中 ， 关 键 的 数据 项 如 下 所 示 。 
3P: 3 分 命中 。 
3PA: 3 分 出 手 。 
3P%: 3 分 命中 率 。 
2P: 2 分 命中 。 
2PA: 2 分 出 手 。 
2P%: 2 分 命中 率 。 
TRB: 篮板 球 。 
STL: 抢断 。 
AST: 助攻 。 
BLK: 盖帽 。 
FT: 罚球 命中 。 
TOV: 失误 。 

基于 球员 的 历史 数据 ， 如 何 对 球员 进行 评价 ? 也 就 是 如 何 进行 科学 的 指标 计算 ， 一 个 比 
较 流 行 的 算法 是 Z-score: 其 基本 的 计算 过 程 是 基于 球员 的 得 分 减 去 平均 值 后 除 以 标准 差 。 举 
一 个 简单 的 例子 , 某 个 球员 在 2016 年 的 平均 篮板 数 是 7.1, 而 所 有 球员 在 2016 年 的 平均 篮板 
数 是 4.5， 标 准 差 是 1.3， 那 么 该 球员 Z-score 得 分 为 2。 在 计算 球员 的 表现 指标 中 可 以 计算 
FT%、BLK、AST、FG% 等 。 

具体 如 何 通 过 Spark 技术 来 实现 呢 ? 

第 一 步 : 数据 预 处 理 : 例如 ， 去 掉 不 必要 的 标题 等 信息 。 

第 二 步 : 数据 的 缓存 :为 加 速 后 面 的 数据 处 理 打下 基础 。 





BODDQD00090000g0go09 
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第 三 步 : 基础 数据 项 计算 : 方差 、 均 值 、 最 大 值 、 最 小 值 、 出 现 次 数 等 。 

第 四 步 : 计算 Z-score， 一 般 会 进行 广播 ， 可 以 提升 效率 。 

第 五 步 : 基于 前 面 四 步 的 基础 ， 可 以 借助 Spark SQL 进行 多 维度 NBA 篮球 运动 员 数 据 
分 析 ， 可 以 使 用 SQL 语句 ， 也 可 以 使 用 DataSet (我 们 在 这 里 可 能 会 优先 选择 使 用 SQL， 为 
什么 呢 ? 其 实 原因 非常 简单 , 复杂 的 算法 级 别 的 计算 已 经 在 前 面 四 步 完 成 了 且 广 播 给 了 集群 ， 
我 们 在 SQL 中 可 以 直接 使 用 ) 。 

第 六 步 : 把 数据 放 在 Redis 或 者 DB 中 。 


县 提示 : (1) 这 里 的 一 个 非常 重要 的 实现 技巧 是 : 通过 RDD 计算 出 来 一 些 核心 基础 数据 并 
广播 出 去 ， 后 面 的 业务 基于 SQL 去 实现 ， 既 简单 ， 又 可 以 灵活 地 应 对 业务 变化 需 
求 ， 希 望 对 大 家 能 够 有 所 启发 ; 
(2) 使 用 缓存 和 广播 以 及 调整 并 行 度 等 提升 效率 。 


NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 数据 说 明 如 下 。 
1，NBA 篮 球 运动 员 大 数据 分 析 系统 应 用 数据 的 来 源 


美国 职业 篮球 联赛 (National Basketball Association，NBA) 是 由 北美 30 支队 伍 组 成 的 
男子 职业 篮球 联盟 ， 汇 集 了 世界 上 最 项 级 的 球员 。NBA 一 共有 30 支 球 队 ， 东 部 分 区 和 西部 
分 区 各 有 15 支 球 队 。 其 中 ， 西 部 分 区 又 被 划分 为 西北 赛区 、 太 平 洋 赛区 、 西 南 赛区 ， 每 个 赛 
区 由 5 支 球 队 组 成 。 东 部 分 区 包括 三 大 赛区 : 大 西洋 赛区 、 东 南 赛区 、 中 部 赛区 ， 每 个 赛区 
也 由 5 支 球 队 组 成 。 东 部 和 西部 联盟 分 别 由 前 8 名 进入 季 后 赛 ， 对 阵 依据 第 一 对 第 八 ， 第 二 
对 第 七 ， 依 此 类 推 。 每 一 轮 系列 赛 均 采 取 七 局 四 胜 的 赛制 ， 常 规 赛 战 绩 占 优 的 球 队 拥 有 主场 
优势 。 两 大 联盟 的 分 区 冠军 进军 决赛 ， 同 样 为 七 局 四 胜 。 篮 球 参 考 网 站 
(www.basketball-reference.com) 提供 了 NBA 篮球 历届 比赛 球员 、 球 队 、 季 节 赛 、 领 先 者 、 
分 数 、 季 后 赛 、 篮 球 指数 的 详细 数据 。Spark 商业 案例 之 NBA 篮球 运动 员 大 数据 分 析 系 统 应 
用 案例 的 数据 来 源 就 来 自 篮球 参考 网 站 。 我 们 可 以 从 网 站 上 下 载 NBA 篮球 运动 员 历史 数据 。 

(1) 打开 篮球 参考 网 站 的 网 页 。 

打开 篮球 参考 网 站 (http://www.basketball-reference. comyleagues/NBA_2017 totals.html ) ， 
查询 2016-2017 年 度 NBA 赛季 球员 的 比赛 数据 ， 如 图 15-1 所 示 。 





PlayerStats Y Oherv 2017Plavofs Summary 








pos Age Im G CS MP FG FGA FGa 3p 3pA 3p% 2p 2pA 2p% eFC% FT FTA FTon ORB DRB TRR AST STL BIK TOV PF PTS 
SG 230kC 68 61055 134 341 .393 94 247 .381 40 94 426 .531 44 49 .898 18 68 86 40 37 8 33114 406 
pF 26ToT 38 1 558 70 170 .412 37 9 -411 3 80 -43 .521 45 60 .750 20 95 115 18 14 15 21 67 222 
PF 26DA 6560 4 5 1 .24 1 7 49 4 10 40 34 2 3.67 2 6 80 0 0 2 9 13| 





PF | 26BRK 32 1 510 65 153 ,425 36 83 .434 29 70 A14 .542 43 57 .754 18 89 107 18 14 15 19 5 209 
C 230kc 80 80 2389 374 655 .571 0 1 .000 374 654 .572 .571157 257 .611 281 332 613 85 89 78 146 195 905 
SG 31SAC 61 45 1580 185 420 ,440 62 151 .411 123 269 .457 .514 83 93 .892 9 116 125 78 21 6 42 104 515| 











图 15-1 NBA 球员 比赛 数据 


(2) Spark 商业 案例 之 NBA 篮球 运动 员 大 数据 分 析 系统 应 用 案例 须 抓 取 篮球 参考 网 站 的 
数据 , 而 上 述 页 面 中 网 站 没有 导出 数据 的 按钮 。 我 们 可 以 先 在 篮球 参考 网 站 上 进行 用 户 注册 。 
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在 网 页 右上 角 单 击 Create Account 按钮 ， 显 示 如 图 15-2 所 示 的 页 面 。 





Wy «CD tr borkeiball -reterence. comn TVOdnove= 
eBASKETBALL Er Peron Tea. Serion, el [ search | 
REFERENCE 
Players Teams Seasons Leagers scoredd Piayons Dran play noex Full sne Menu Below ， 





Pe = ce 





Log In or Sign Up 


UserD 





omot your Passeord? 


Sign up for a Sports-Reference.com Account 
Tne watatep n sponsonng a page or uang our servees 


Pret Name 


Leann 
图 15-2 Create Account 


(3) 在 图 15-3 所 示 的 用 户 注册 页 面 中 填写 用 户 的 用 户 名 、 邮 箱 、 密 码 相 关 信 息 。 在 用 户 
邮箱 中 收 到 篮球 参考 网 站 发 来 的 确认 邮件 ， 确 认 后 就 可 以 在 篮球 参考 网 站 上 进行 登录 。 
到 ?7 《 合 尺 | 安 ww. basketball -reference. com/my/ 


Play index Subscriptions ”Browse Ad Free Backtotop A 





Sign up for a Sports-Reference.com Account 
The first step in sponsoring a page or using our services. 


First Name 





Last Name 








Email Address 








Choose a User ID 








Password 








Password (again) 


Privacy Policy 














图 15-3 用 户 注册 页 面 


(4) 用 户 注册 成 功 以 后 ,在 篮球 参考 网 站 进行 登录 , 重新 打开 2016-2017 年 度 NBA 赛季 
球员 的 比赛 数据 的 网 页 。 如 图 15-4 所 示 , 在 球员 比赛 数据 上 方 出 现 工具 栏 , 单 击 “hare & more 
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Player Totals share & more w Glossary 

Rk Player Pos Age Im G GS MP 
1 Alex Abrines SG 23 OKC 68 6 1055 
2 Quincy Acy PF 26 TOT 38 1 558 
2 Quincy Acy PF 26DAL 6 0 48 
2 Quincy Acy PF 26 BRK 32 1 510 
3 Steven Adams © 23 OKC 80 80 2389 ， 
4 Arron Afflalo SG 31 SAC 61 45 1580 





图 15-4 单 击 Share & more 


(5) 在 Share & more 列表 中 ， 通 过 Excel、csv 等 文本 格式 将 NBA 球员 比赛 的 数据 导出 。 
这 里 单 击 Get as Excel Workbook (experimental) 导出 为 Excel 格式 ， 保 存在 本 地 文件 
sportsref download.xls 中 ， 如 图 15-5 所 示 。 











Player Totals | share & more a | Glossary Hide Partial Rows 
Rk Player Modify & Share Table 
1 Alex Abrines Embed this Table 
2 Quincy Acy Get as Excel Workbook (experimental) 
2 Quincy Acy Get table as CSV (for Excel) 
2 Quincy Acy Strip Mobile Formatting 
3 Steven Adams | Copy Link to Table to Clipboard 
4 Arron Afflalo About Sharing Tools 
5 Alexis Aiinca 








图 15-5 导出 NBA 球员 数据 


(6) 打开 sportsref download.xls 文件 ， 从 篮球 参考 网 站 上 下 载 的 球员 比赛 数据 显示 如 图 
15-6 所 示 。 在 Spark 商业 案例 之 NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 案例 中 ， 我 们 从 篮球 
参考 网 站 中 抓 取 NBA 球员 1970 年 至 2016 年 的 历史 数据 进行 统计 分 析 。 


al ss jelafnlsiel a zl 1| se Eis joilpi gs i a js eisai lniwiw 





Rk Plaver pm 全 TmG GSMP FG FGA Fe% 3P 3PA3P% 2P 2PA 2P% eFG% FT FTAFT% ORB DRB TRB AST STL BLK TOV PF PTS 
1 


Alex 
1 Abrine S6 23 OKC 68 6 1055 134 341 0.393 94 247 0381 40 94 0.426 0.531 4 49 0.898 18 68 86 40 37 8 33 114 406 


2 Quincy 


ps PF 26 TOT38 1 558 70 170 0.412 37 90 0.411 33 80 0.413 0.521 45 60 0.75 20 95 115 18 14 15 21 67 222 
2 站 家 PF 26 DAL6 0 48 5 17 0.241 7 01434 10 0.4 0324 2 3 0.672 6 8 0 0 0 2 9 1% 
¥ 2 I PF I26 BRK 32 1 510 好 153 0.425 36 83 0434 29 70 0.414 0.542 43 57 0.754 18 ‘89 107 18 14 15 19 58 209 
3 We C 23 OKC 80 80 2389 374 655 0.571 0 1 0 374 654 0.572 0.571 157 257 0.611 281 332 613 86 89 78 146 195 905 
Arron 


4 Afflal SG 31 SAC61 45 1580 185 420 0.44 62 151 0.411 123 269 0.457 0.514 83 93 0.892 9 116 125 78 21 6 42 104 515 








图 15-6 NBA 球员 比赛 数据 
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2.NBA 篮 球 运动 员 大 数据 分 析 系 统 应 用 数据 的 格式 说 明 


Spark 商业 案例 之 NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 案例 分 析 统 计 实战 ， 我 们 使 用 
Spark 本 地 模式 进行 开发 ， 在 IDEA 开发 环境 的 SparkApps 工程 中 的 data 目录 中 新 建 
NBABasketball 目录 ， 将 从 篮球 参考 网 站 上 抓 取 的 球员 历史 数据 文件 转换 为 csv 文件 ， 将 
leagues NBA 1970 per game per game.csv 至 leagues NBA 2016 per game per game.csv 文 
本 文件 保存 到 data/NBABasketball 目录 下 。 

NBA 篮球 运动 员 文 件 leagues NBA 1970_per game per game.csv 的 格式 描述 如 下 。 





MP 比赛 时 间 (分钟) 
FG 投篮 命中 次 数 
FGA 投篮 出 手 次 数 

. FGS 投篮 命中 率 


排名 

2. Player 球员 名 字 
3. Pos 打球 位 置 
4. Age 球员 年 龄 
sm 效力 球 队 
(ce 上 场次 数 
TGs 首发 次 数 
8. 

| 


3P 3 分 命中 
3PA 3 分 出 手 
3 分 命中 率 
2P 2 分 命中 
2PR 2 分 出 手 


2Pp% 2 分 命中 率 
. eFGS% 有 效 投篮 命中 率 


omwwmP 口 ， 
Co 
rd 
op 





2 7 BDK 盖帽 
28. TOV 失误 
29. PF 个 人 犯规 
0 RLS 得 分 


从 NBA 篮球 运动 员 文件 leagues NBA_1970 per game per game.csv 中 摘 取 部 分 记录 
如 下 。 


1. Rk,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FGS,3P,3PA,3PS%,2P,2PA,2PS%,eFGS, 
FT, FTA, FT%, ORB, DRB, TRB, AST, STL, BLK, TOV, PF, PTS 

2. 1,Kareem Abdul-Jabbar*,C,37,LAL,79,79,33.3,9.2,15.3,.599,0.0,0.0,.000, 
ele Ce rst ee le re oe a et ee) 

3 Van dns PR S00 PHONG ACO OS G20 ON 0 0 a 
S20 520 0 0 Sea oO A (Gu Ia oA 0 A A 

4. 3,Mark Aguirre,SF,25,DAL,80,79,33.7,9.9,19.6,.506,0.3,1.1,.318,9.6, 
DB I OO lO 
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得 


4,Danny Ainge, SG, 25,BOS,75,73,34.2,5.6 
Bd a0 on 060 0 2 6 3 0 3 


a 
GO 20 3 O02 


15.2 NBA 篮球 运动 员 大 数据 分 析 系统 代码 实战 : 数据 清洗 


和 初步 处 理 


本 节 NBA 篮球 运动 员 大 数据 分 析 系 统 代 码 实 战 : 数据 清洗 和 初步 处 理 。 首 先 构建 NBA 
篮球 运动 员 大 数据 分 析 系 统 SparkSession 上 下 文 运 行 环 境 , 然后 在 Spark 中 读 入 NBA 球员 历 
史 数据 1970 至 2017 年 的 数据 ， 对 原始 的 NBA 球员 数据 进行 清洗 ， 并 进行 基础 的 计算 处 理 。 
具体 实现 方法 如 下 : 

(1) 构建 NBA 篮球 运动 员 大 数据 分 析 系 统 实战 SparkSession 运行 环境 。SparkSession 统 
一 了 Spark SQL 执行 时 的 不 同 的 上 下 文 环境 ，Spark SQL 无 论 运行 在 哪 种 环境 下 ， 我 们 都 可 
以 只 使 用 SparkSession 统一 的 编程 入 口 来 处 理 DataFrame 和 DataSet 编程 ， 不 需要 关注 底层 
是 否 有 Hive 等 。 有 了 SparkSession 之 后 ， 就 不 再 需要 SqlContext 或 者 HiveContext 了 。 

构建 NBA 篮球 运动 员 大 数据 分 析 系 统 实战 SparkSession 运行 环境 : 


wm 心 wN 


def main(args: Array[String]) { 

Logger.getLogger ("org") .setLevel (Level .ERROR) 

// 日 志 过 滤 级 别 ， 我 们 在 控制 台 上 只 打印 正确 的 结果 或 错误 的 信息 

var masterUr1l = "Local [8] " // 默 认 程序 运行 在 本 地 Local 模式 中 ， 主 要 用 于 学 习 和 测试 

/** 
* 当 我 们 把 程序 打包 运行 在 集群 上 的 时 候 ， 一 般 都 会 传 入 集群 的 URL 信息 ， 这 里 我 们 假设 传 入 
* 参数 ， 第 一 个 参数 只 传 入 Spark 集群 的 URL， 第 二 个 参数 传 入 的 是 数据 的 地 址 信息 
Gp 

if (args.length > 0) { 
masterUrl = args (0) // 如 果 代码 提交 到 集群 上 运行 ， 传 给 SparkSubmit 的 第 一 个 

// 参 数 须 是 集群 master 的 地 址 

过 
* 创建 Spark 会话 上 下 文 SparkSession 和 集群 上 下 文 SparkContext, 在 SparkConf 中 
* 可 以 进行 各 种 依赖 和 参数 的 设置 等 ， 大 家 可 以 通过 SparkSubmit 脚本 的 help 去 查看 
* 设置 信息 ， 其 中 SparkSession 统一 了 Spark SQL 运行 的 不 同 环境 
*/ 


val sparkConf = new SparkConf () .setMaster (masterULr1) .setAppName 
("NBAPlayer Analyzer DateSet") 
/** 


* SparkSession 统一 了 Spark SQL 执行 时 的 不 同 的 上 下 文 环境 , 也 就 是 说 , Spark SQL 
* 无 论 运 行 在 哪 种 环境 下 ， 我 们 都 可 以 只 使 用 SparkSession 这 样 一 个 统一 的 编程 入 口 
* 来 处 理 DataFrame 和 DataSet 编程 ， 不 需要 关注 底层 是 否 有 Hive 等 
* 有 了 SparkSession 之 后 ， 就 不 再 需要 SqlContext 或 者 HiveContext 了 
*/ 
val spark = SparkSession 
-builder() 
.config(sparkConf) 
-getOrCreate () 
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2 val sc = spark.sparkContext 
// 从 sparkSession 获得 的 上 下 文 , 这 是 因为 我 们 读 原生 文件 的 时 候 或 者 实 
// 现 - 些 Spark SQL 目前 还 不 支持 的 功能 的 时 候 ， 需 要 使 用 SparkContext 


(2) 数据 清洗 第 一 步 : 对 原始 的 NBA 球员 数据 进行 初步 处 理 ， 并 进行 缓存 。 

@ 设置 NBA 球员 历史 数据 存放 的 目录 data/NBABasketball;t NBA 球员 数据 清洗 以 后 保 
存 的 临时 目录 为 data/basketball tmp。 

@ 循环 遍历 获取 所 有 NBA 球员 文件 的 数据 : SparkApps 工程 中 的 data 目录 data/ 
NBABasketball 中 存放 了 2016 至 2017 年 度 NBA 赛季 球员 的 比赛 数据 ， 涉 及 的 文件 非常 多 ， 
采用 for 语句 循环 遍历 获取 所 有 文件 的 数据 。 其 中 ，2016 至 2017 年 度 NBA 赛季 球员 数据 文 
件 名 的 格式 均 为 leagues_NBA _1970_ per game per game.csv， 仅 其 中 的 年 份 (1970 一 2016) 
不 同 ,我 们 通过 输入 年 份 变量 读 取 每 年 NBA 球员 的 数据 信息 。 在 for 循环 遍历 中 ， 读 入 的 每 
年 的 NBA 球员 数据 文本 ， 每 行 中 需 包括 “，”， 和 筛选 过 滤 清 洗 掉 没有 “，” 的 数据 ， 并 进 
行 map 转换 ， 将 读 入 的 每 行 的 球员 数据 格式 化 为 Key-Value 格式 ，Key 值 为 年 份 ，Value 值 
为 球员 的 比赛 数据 ， 即 格式 为 〈 年 份 ， 球 员 数 据 ) 。 将 Key-Value 格式 化 后 的 数据 根据 年 份 
把 每 年 数据 保存 到 一 个 临时 目录 中 ， 如 data/basketball tmp/NBAStatsPerYear/1970。 在 生产 环 
境 中 ， 转 换 以 后 的 数据 可 以 保存 为 parquet 格式 。 

@ 读 取 已 转换 后 的 各 年 份 目录 下 的 文本 文件 (如 part-00000) ，part-00000 文本 文件 中 
第 一 行 是 (年 份 ， 标 题 栏 ) 格式 ， 其 中 标题 栏 中 是 NBA 球员 比赛 数据 对 应 的 标题 栏目 ， 如 
FG% 是 投篮 命中 率 ， 我 们 先 把 包含 “FG%” 标 题 的 第 一 行 过 滤 掉 ， 然 后 再 过 滤 出 包含 “，?” 
的 数据 ， 即 NBA 球员 每 年 的 比赛 数据 。 接 下 来 进行 数据 清理 ， 读 入 的 每 行 数 据 中 有 的 字段 
可 能 没有 数据 ， 原 始 数据 记录 中 会 出 现 多 个 “，” 的 情况 ， 我 们 使 用 map 转换 函数 将 “，，?” 
两 个 逗号 的 字符 替换 为 “,0,”， 这 样 进行 格式 转换 ， 以 便 后 续 进行 数据 的 清洗 。 

@ 接 下 来 使 用 persist 持久 化 算 子 进行 数据 缓存 。 为 了 加 快 后 续 的 处 理 进度 ， 我 们 一 般 
对 反复 使 用 的 数据 进行 缓存 处 理 。 这 里 我 们 使 用 persist 算 子 ， 定 义 存 储 级 别 为 
MEMORY AND_DISK, 首先 将 数据 持久 化 到 内 存 中 , 如 果 内 存 不 足 , 就 将 spil 溢出 到 磁盘 ， 
持久 化 到 磁盘 文件 中 。 

NBA 篮球 运动 员 大 数据 分 析 系统 实战 数据 清洗 代码 如 下 。 

本 / 

* 第 一 步 : 对 原始 的 NBA 球员 数据 进行 初步 的 处 理 ， 并 进行 缓存 





Ey 














2 wh 

3 val data Path = "data/NBABasketball" // 数 据 存在 的 目录 
4 val data Tmp = "data/basketball tmp" 

5 /** 


* 因为 文件 非常 多 ， 此 时 我 们 需要 采用 循环 读 取 所 有 文件 的 数据 
wt 


6. 

i FileSystem.get (new Configuration()) .delete (new Path (data Tmp) ,true) 
// 如 果 临 时 文件 夹 已 经 存在 ， 再 删除 其 中 的 数据 

8. for(year <- 1970 to 2016){ 

o> val statsPerYear = sc.textFile(s"${data Path}/leagues NBA S${year} 

*") ”// 通 过 输入 年 份 变量 读 取 每 年 NBA 球员 的 数据 信息 

0 statsPerYear.filter( .contains(",")) .map(line => (year, line)). 

i saveAsTextFile(s"${data Tmp}/NBAStatsPerYear/$ {year}/") 

小 

13. val NBAStats = sc.textFile(s"${data Tmp}/NBAStatsPerYear/*/*") 
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在 
如 下 : 
© 


oANAONDP 


© 
标题 栏 ， 
a 


3 


(@) 


Ys 


2 


3 


// 读 取 所 有 NBA 球员 过 去 的 历史 数据 


/** 
* 进行 数据 初步 的 ETL 清洗 工作 , 实际 产生 的 数据 可 能 是 不 符合 处 理 要 求 的 数据 ,需要 我 
* 们 按照 一 定 的 规则 进行 清洗 和 格式 化 
* 完成 这 个 工作 的 关键 是 清晰 地 知道 数据 是 如 何 产生 的 ， 以 及 我 们 需要 什么 样 的 数据 
*/ 
val filteredData = NBAStats.filter(line => !line.contains ("FG%")). 
filter(line => line.contains(",")). 


map (line => line.replace(",,",，",0,")) // 数 据 清理 的 工作 可 能 是 持续 的 


. filteredData.collect() .take (10) .foreach (Println( )) 


/** 
* 数据 缓存 ， 为 了 加 快 后 续 的 处 理 进度 ， 我 们 一 般 对 反复 使 用 的 数据 都 进行 缓存 处 理 
* 推荐 使 用 StorageLevel .MEMORY AND DISK， 因 为 这 样 可 以 更 好 地 使 用 内 存 ， 且 不 
* 让 数据 丢失 
下 
filteredData.persist (StorageLevel .MEMORY AND DISK) 


IDEA 中 运行 代码 ，NBA 篮球 运动 员 大 数据 分 析 系 统 实战 数据 清洗 代码 ， 输 出 结果 


查看 转换 以 后 的 NBA 球员 目录 文件 ， 如 1970 的 目录 结构 如 下 。 


G:\IMFBigDataSpark2017\SparkApps\data\basketball tmp\NBAStatsPerYear\1970 
. SUCCESS.crc 
.Part-00000.crc 
.part-00001.crc 
SUCCESS 
part-00000 
part-00001 


打开 part-00000 文本 文件 ， 显 示 NBA 球员 的 比赛 数据 记录 ， 第 一 行 的 数据 包含 的 是 
每 行 记 录 的 Key 值 是 年 份 值 ，Value 值 是 各 年 份 NBA 球员 的 比赛 数据 。 


(1970, Rk, Player, Pos, Age, Tm, G, GS, MP, FG, FGA, FG%, 3P, 3PA, 3P%, 2P, 2PA, 2p%, 
EFG$, FT, FTA, FT%, ORB, DRB, TRB, AST, STL, BLK, TOV, PF, PTS) 

(1970,1,2aid Abdul-Aziz,PF,23,MIL,80,,20.5,3.0,6.8,.434,,,,3.0,6.8,. 
Ee Et 

(1970,2, Kareem Abdul-Jabbar*,C,22,MIL, 82,,43.1,11.4,22.1, .518,,,,11.4, 
oe ee rs a ls 29R6) 

(1970, 3, Mahdi Abdul-Rahman, PG,27,ATL,82,,33.6,6.0,12.9,.467,,,,6.0,12. 
Oden ena a 0 ao sr) 

(LT ON A ede nn GS DR 0 7 609 本 
BO DE a Ga 

(1970,5, Lucius Allen,PG,22,SEA,81,,22.4,3.8,8.5,.442,,,,3.8,8.5, .442,. 
a2 i a ey 

(1970,6,Wally Anderzunas,SF,24,CIN,44,,8.4,1.5,3.8,.392,,,,1.5,3.8,. 
0 > 0 0 


对 NBA 球员 比赛 数据 各 行 记 录 中 包含 连续 两 个 逗号 的 记录 清洗 结果 如 下 。 


(1970,1,Zaid Abdul-Aziz,PF,23,MIL,80,0,20.5,3.0,6.8,.434,0,,0,3.0,6. 
BA Sas dl Ga OO 0 2 
(1970,2, Kareem Abdul-Jabbar*,C,22,MIL, 82,0,43.1,11.4,22.1, .518,0,,0,11. 
2 Te se DRSRS2856 
(1970, 3, Mahdi Abdul-Rahman, PG,27,ATL, 82,0,33.6,6.0,12.9, .467,0,,0,6.0, 
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< 卫 


SR 


6 


Ts 


8. 


< 局 


Tn 


(1970,4,Rick Adelman,PG,23,SDR,35,0,20.5,2.7,7.1,.389,0,,0,2.7,7.1, 


rt 全 三 2 有 DOE26E7 


LIT0 LS Lucius nen pe 22 SEAN dl 0 22043 8 0 0 aan0 0 3 0 5 


和 
(1970, 6,Wally Anderzunas, SF,24,CIN, 44,0,8.4,1.5,3.8, .392,0,,0,1.5,3.8, 
0 |EORGS0RDORETE9ROE2NORSDR ES 且 6 

(UD OR TOD rth 2M TO LO O12 
Se ee ee 


(1970, 8,Al Attles,PG,33,SFW,45,0,15.0,1.7,4.5, .386,0,,0,1.7,4.5, .386, 


eo oe 53E2 0 二 ON2 SET 


(T9070 Oimn Bales COB BO TIO ao Alo 0 026 lo 


a 


10. (1970,10, Dick Barnett, SG, 33,NYK, 82,0,33.8,6.0,12.7, .475,0,,0,6.0,12.7,. 


I or A 王 证 0 大 站 7 放 i 攻 9 


(3) 数据 清洗 第 二 步 : 对 原始 的 NBA 球员 数据 进行 基础 性 处 理 ， 并 进行 基础 数据 项 计 
算 : 方差 、 均值、 最 大 值 、 最 小 值 、 出 现 次 数 等 。 
这 里 对 NBA 球员 比赛 数据 进行 了 清洗 , 包括 过 滤 清 洗 掉 NBA 球员 比赛 数据 第 一 行 的 标 


题 栏 、 


星 号 ; 


以 直接 从 这 里 开始 NBA 球员 比赛 数据 的 数据 清洗 及 处 理 。 
NBA 篮球 运动 员 数据 清洗 代码 如 下 。 


5 
这 沁 


心 


// 读 入 NBA 球员 的 数据 记录 
Val stats = sc.textFile(s"${TMP PATH}/BasketballStatsWithYear/*/*") 


repartition(sc.defaultParallelism) 


青 洗 、 两 个 逗号 中 插入 数字 0 等 清洗 工作 ， 部 分 清洗 和 第 一 步 是 重复 的 ， 读 者 可 


// 过 滤 清 洗 掉 NBA 球员 比赛 数据 第 一 行 的 标题 栏 、 星 号 清洗 、 两 个 逗号 中 插入 数字 0 等 清洗 工作 


val filteredStats: RDD[String]l = stats.filter(x => !x.contains 
("FGS%") ) .filter(x => x.contains(",")) .map(x => x.replace("™*", "") 
replaced re es OY) 

filteredStats.cache () // 清 洗 以 后 的 数据 进行 缓存 

println ("NBA 球员 清洗 以 后 的 数据 记录 : ") 
filteredStats.take (10) .foreach (Println) 


在 IDEA 中 运行 代码 ，NBA 篮球 运动 员 数据 清洗 输出 结果 如 下 。 


.564 


NBA 球员 清洗 以 后 的 数据 记录 : 

(1970,5,Lucius Allen,PG,22,SEA,81,0,22.4,3.8,8.5,.442,0,,0,3.8,8.5, 
Ce er te)) 

(1970, 36, Dick Cunningham,C,23,MIL, 60,0,6.9,0.9,2.4, .369,0,,0,0.9,2.4, 
S036 Ao e660 Ou OO eo) 

(1970,51,Dave Gambee, SF,32,SFW,73,0,13.0,2.5,6.4,.399,0,,0,2.5,6.4, 
S00 3090 2 1 05 30000 3 0 G0 0 2 


(1970, 66, Clem Haskins,SG,26,CHI, 82,0,39.2,8.1,18.1, .450,0,,0,8.1,18.1, 


aD OA OA ON en oo ON 0 N20 
(Lon0s en wa donesy pe 2 HIN/ 0 22 3A lOO A 0 0 Oa ON 
OAS OO A NO AO 2 0 0 

(L970 O06 Mike Lynn SE 4 TAL A 0 0 21 03030 0 0 103 0 SS 
S30 1 46 0 0 7 ON 0 2 O02) 

(1970,111, Dorie Murrey,C,26,SEA,81,0,13.3,1.9,4.2,.446,0,,0,1.9,4.2, 
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Too Tan Greg Smith pr 23 0 89a 1 no 0 a 
ST ST O00) 

T1970 1 nmy Walker SG .25 DET 0 .30 0 2 7 2 de 0 0 21 
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15.3 NBA 篮球 运动 员 大 数据 分 析 代 码 实战 之 
核心 基础 数据 项 编写 


本 节 根 据 NBA 球员 1970 年 至 2016 年 的 历史 数据 ， 按 照 表 15-1 中 NBA 球员 比赛 数据 
统计 需求 ， 统 计 出 每 年 NBA 球员 比赛 的 各 项 统计 数据 。 


表 15-1 ”NBA 球员 数据 统计 项 




















FT _min 最 小 罚球 命中 次 数 

DRB max 最 大 防御 篮板 球 数 

FT% count 罚球 命中 率 

FG% stdev 投篮 命中 率 标 准 差 

FTA_min 最 小 罚球 出 手 次 数 

FT% stdev 罚球 命中 率 标准 差 

FG% count 投篮 命中 率 

FG count 投篮 命中 次 数 

FG stdev 投篮 命中 次 数 标准 差 

2P stdev 2 分 命中 标准 差 

TOV _max 最 大 失误 次 数 

AST stdev 助攻 标准 差 

BLK stdev 盖帽 标准 差 

FT_count 罚球 命中 次 数 

2P_count 2 分 命中 次 数 

DRB avg 防御 篮板 球 平均 次 数 

3P_max 最 大 3 分 命中 

2P% count 2 分 命中 率 

3P% max 最 大 3 分 命中 率 

2P% stdev 2 分 命中 率 标准 差 
平均 失误 次 数 、 

TOV avg、 3P avg 平均 3 分 命中 

略 …… ee 


15.3.1 NBA 球员 数据 每 年 基础 数据 项 记录 


根据 NBA 球员 1970 年 至 2016 年 的 历史 数据 ， 按 照 NBA 球员 比赛 数据 统计 需求 ， 对 
NBA 篮球 比赛 感 兴趣 的 读者 ， 可 以 研究 一 下 NBA 比赛 具体 各 个 统计 维度 的 业务 含义 。 这 里 
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统计 出 每 年 NBA 球员 比赛 的 各 项 聚合 统计 数据 。 

具体 实现 方法 如 下 。 

(1) 定义 NBA 球员 数据 统计 维度 的 数组 txtStat, 数组 中 包含 FG、FGA、FG%、3P、3PA、 
3P%、 2P、 2PA、2P%、eFG%、 FT、 FTA、 FT%、ORB、 DRB、TRB、AST、 STL、 BLK、 
TOV、PF、PTS 等 字符 串 ， 其 对 应 为 投篮 命中 次 数 、 投 篮 出 手 次 数 、 投 篮 命中 率 、3 分 命中 、 
3 分 出 手 、3 分 命中 率 、2 分 命中 、2 分 出 手 、2 分 命中 率 、 有 效 投篮 命中 率 、 罚 球 命中 、 罚 
球 出 手 次 数 、 罚 球 命中 率 、 进 攻 篮 板 球 、 防 御 篮板 球 、 篮 板 球 、 助 攻 、 抢 断 、 盖 帽 、 失 误 、 
个 人 犯规 、 得 分 。 

(2) 通过 函数 processStats 传 入 两 个 参数 进行 计算 。 第 一 个 参数 是 清洗 以 后 的 NBA 数据 
filteredStats， 第 二 个 参数 是 NBA 球员 数据 统计 维度 数组 txtStat。 第 三 个 参数 bStats 使 用 默认 
值 空 值 ， 第 四 个 参数 zStats 使 用 默认 值 空 值 。 


processStats 函数 的 签名 如 下 。 


1. def processStats(stats0: RDD[String], txtStat: Array[String], bsStats: 


Map[String, Double], 
2. ZzStats: Map[String, Double] ) : RDD[ (String, Double)] 


(3) 打印 输出 NBA 球员 基础 数据 项 映射 集 。 
NBA 每 年 球员 比赛 数据 统计 分 析 代 码 如 下 。 





1. // 解 析 统 计 分 析 的 结果 保存 为 map 结构 

2 val txtStat:, Array[lString] = Array ("FG", "FGA”; "FG%", "3P", "3PA", 
"3ps", "2p", "2PA", "2p%", "eFG%", "FT", "FTA", "FTS", "ORB", "DRB", "TRB", 
"AST", "STL", "BLK", "TOV", "PE", "pTS") 

| 

EE println ("NBA 球员 数据 统计 维度 : ") 

Li txtStat.foreach (Println) 

6 val aggStats: Map[String， Double] = processStats (filteredstats, 
txtStat) .collectAsMap // 基 础 数据 项 ， 需 要 在 集群 中 使 用 ， 因 此 会 在 后 面 广 播 出 去 

TY println ("NBA 球员 基础 数据 项 aggStats MAP 映射 集 : ") 

8 . aggStats .take (20) .foreach{case (k,v) => println(™" ("+k+","+v+" ) ")} 

9. // 将 RDD 转换 成 map 结构 进行 广播 

DE val broadcastStats = sc.broadcast (aggStats) // 使 用 广播 提升 效率 

在 IDEA 中 运行 代码 ， 对 原始 的 NBA 球员 数据 进行 基础 性 处 理 ， 输 出 结果 如 下 。 

1. ”NBA 球员 数据 统计 维度 : 

EG 

3. FGA 

4. FGS 

55 “3P 

6. 3PA 

APE 

36 2P 

9. 2PA 

10 2P% 

11. eFG% 

eA 

13. FTA 

14. FTS 

15. ORB 

16. DRB 
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25. NBA 球员 基础 数据 项 aggStats MAP 映射 集 : 
260 ononeeimin ee oon 


onoRspe nax oo 
1970 2P% stdev ， 0.07887441636979554 ) 


27. (1970 DRB max ，0.0 ) 
28: (1970 Fr% count , 171.0 ) 
29. (1970 FG% stdev ，0.07887441636979554 ) 
Bon or ne 0 0) 
31. (1970 FT% stdev ，0.14819090262313409 ) 
32 no rcs coune le 7 
ssorolrer ount on 
34. (1970 FG stdev ，2.745145972097947 ) 
35. (1970 2P stdev ，2.745145972097947 ) 
36. (1970 TOV max ，0.0 ) 
37. (1970 AST stdev ，1.8797508579195414 ) 
38. (1970 BLK stdev ，0.0 ) 
39. (1970 FT count , 171.0 ) 
qo C1070 2p count 1710) 
a Cron De Varo oo 
42. (1970 3P max ，0.0 ) 
43. (1970 2P% count ，171.0 ) 

( 

区 


15.3.2 ”NBA 球员 数据 每 年 标准 分 Z-Score 计算 


根据 NBA 球员 1970 年 至 2016 年 的 历史 数据 ， 按照 NBA 球员 比赛 数据 统计 需求 ,统计 
出 NBA 球员 数据 每 年 标准 分 Z-Score 计算 。 

具体 实现 方法 如 下 。 

(1) 定义 NBA 球员 数据 标准 分 统计 维度 的 数组 txtStatZ, 数组 中 包含 FG、FT、 3P、TRB、 
AST、STL、BLK、TOV、PTS 等 字符 串 ， 其 对 应 为 投篮 命中 次 数 、 罚 球 命中 、3 分 出 手 、 篮 
板 球 、 助 攻 、 抢 断 、 盖 帽 、 失 误 、 得 分 。 

(2) 通过 函数 processStats 传 入 3 个 参数 进行 计算 。 第 一 个 参数 是 清洗 以 后 的 NBA 数据 
filteredStats, 第 二 个 参数 是 NBA 球员 数据 标准 分 统计 维度 的 数组 txtStatZ, 第 三 个 参数 bStats 
使 用 广播 变量 broadcastStats.value， 即 在 15.3.1 节 中 计算 出 的 NBA 球员 数据 每 年 聚合 统计 数 
据 ， 第 四 个 参数 zStats 使 用 默认 值 空 值 。 

processStats 函数 的 签名 如 下 。 


1. def processStats (stats0: RDD[String], txtStat: Array[String], bstats: 
Map[String, Doublel], 
2. ZzStats: Map[String, Double] ) : RDD[ (String, Double)] 


(3) 打印 输出 NBA 球员 Z-Score 标准 分 映射 集 。 
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NBA 球员 数据 每 年 标准 分 Z-Score 计算 代码 如 下 。 
这 // 解 析 统 计 ， 跟 踪 权 重 


5 Wal trtotatZ = Ncray("“FG" "PT" 3p “TRB “AST™, wo »BLRK™. "TO 
spo 

汐 训 Val ey Map [String，Double] =processStats (filteredSstats, txtStatz, 
broadcastStats-value) .collectAsMap 

4 println ("NBA 球员 Zz-Score 标准 分 zstats MRP 映射 集 : ") 

5 zStats.take (20) .foreach{case (k,v) => println(™ (w+k+", "+v +")")} 

a // 将 RDD 转换 为 map 结构 ， 并 使 用 广播 变量 广播 到 Executor 

了 val zBroadcastStats = sc.broadcast(zStats) 


在 IDEA 中 运行 代码 ，NBA 球员 数据 每 年 标准 分 Z-Score 计算 代码 输出 结果 如 下 。 


NBA 球员 Zz-Score 标准 分 zStats MRP 映射 集 : 
( 1970 FT min , -3.6380461988304074 ) 
(C1970 FG count 7 171.0°) 

( 1970 FG stdev , 0.4780806983787295 ) 
( 1970 AST stdev ，1.0 ) 

CL TO ax 7 =Infinity ) 

( 1970 3P max ，, -Infinity ) 
(L970 FT Count 3 37L.0 ) 

( 1970 BLK stdev , NaN ) 

( 1970 3P avg ，0.0 ) 

Olonavg OO 
( 
( 
( 
( 
( 
( 
( 
( 
( 


ownam 必 wm 


OWAMAWNPO.: 


1970 FG max , 2.371563157894738 ) 
970_FG avg ，0.1370776478232629 ) 
970_FT stdev , 0.4094933599941332 ) 
1970 TRB max , 3.5104557688319065 ) 
970 AST min , -1.247210200525836 ) 
970_PTS max , 2.838208290871194 ) 
970_TOV count ，0.0 ) 

970 BLK min , Infinity ) 

970_TOV min , Infinity ) 








D 


15.3.3 ”NBA 球员 数据 每 年 归 一 化 计算 


根据 NBA 球员 1970 年 至 2016 年 的 历史 数据 ， 按 照 NBA 球员 比赛 数据 统计 需求 ， 


计 出 NBA 球员 数据 每 年 归 一 化 计算 。 
具体 实现 方法 如 下 。 


统 


(1) 对 清洗 后 的 NBA 球员 数据 进行 map 转换 。 将 读 入 的 每 行 NBA 球员 数据 调用 bbParse 


函数 ， 由 RDD[String] 生 成 新 的 RDD[BballData]，RDD 的 元 素 类 型 是 BballData。 


(2) 将 nStats RDD[BballData] 转 换 成 nPlayer RDD[Row]， 后 续 我 们 可 以 将 nPlayer 


RDD[Row] 再 转换 为 dataframe。 在 map 转换 过 程 中 打印 输出 每 行 数据 。 
(3) NBA 球员 比赛 数据 归 一 化 处 理 。 
1 // 解 析 统 计 ， 进 行 归 一 化 处 理 


2 val nstats: RDD[BballData] = filteredStats.map(x => bbParse (X， 


broadcastStats.value, zBroadcastStats.value)) 


3 // 转 换 RDD 为 RDD [Row] ， 可 以 将 其 再 转换 为 dataframe 


区 
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4 val nPlayer: RDD[Row] = nStats-map(x => { 

5 val nPlayerRow: Row = Row.fromSeq(Array(x.name, x.year, x.age, 
x.position, x.team, x.gp, x.gs, x.mp) 

,7 ++ xX.Stats ++ x.statsz ++ Array(x.valueZ) ++ x.statsN ++ Array 

(x.valueN)) 

y println( npPlayerRow.mkstring(" ")) 

< nPlayerRow 

9. } 


在 IDEA 中 运行 代码 ， 对 NBA 球员 比赛 数据 进行 归 一 化 处 理 ， 在 map 转换 过 程 中 打印 
输出 每 行 数据 ， 分 别 截图 显示 输出 结果 ， 如 图 15-7 和 图 15-8 所 示 。 


Vinny Del Negro 2000 33 PG MIL 67 0 18.1 2.3 4.9 0.471 0.1 0.4 0.333 2.2 4.5 0.482 0.483 0.5 0.6 0.897 0.1 1.5 1.6 2.4 0.5 0.0 0.7 1.2 
5.2 0. 302247488803139 0. 10301846983662138 -0. 977334407006 -0. 81418347444599 0. 30488943735619084 -0. 3638826077581982 -0 
.8070671514866472 0. 6929313218203518 -0. 4787406228362177 -1. 615984872151451 0. 04105621069430546 0. 01432491946625797 -0 
, 16020639315378787 -0. 19196562192671113 0. 06670532041193843 -0. 0840722864519025 -0. 13073442394709373 0. 20463994678197225 -0 
.12764730551478282 -0. 36789963363980394 

LaPhonso Ellis 2000 29 PF AIL 58 8 22.6 3.6 8.0 0.45 0.1 0.4 0.143 3.6 7.6 0.465 0.454 1.1 1.6 0.695 1.7 3.3 5.0 1.0 0.6 0.4 0.9 2.3 
8.4 0.21251870052082839 -0. 37035744683160193 -0. 5551977334407006 0. 53925260302153 -0. 4707109277063714 -0. 15060561869831962 -0 
.05242928247144409 0. 4457173029019164 0. 07364937877390089 -0. 3281630239302618 0. 028867775145506914 -0. 051498926435283296 -0 
+ 16020639315378787 0, 12714328473083358 -0. 10298462133134548 -0. 0347962734313615 -0. 008492864601461984 0. 1316314651588224 0 
.019637240511637802 -0. 05069931340643942 

Lawrence Funderburke 2000 29 PF SAC 75 1 13.7 2.5 4.7 0.523 0.0 0.0 0.0 2.5 4.7 0.526 0.523 1.5 2.2 0.706 1.3 1.8 3.1 0.4 0.4 0.3 0.5 
1.2 6.4 0.8843130446410064 -0. 29282674701582545 -0. 7466602668110601 -0. 21707932262208415 -0. 8031110841617554 -0. 5771595968180768 
-0. 24108874972524494 0. 940145340738787 -0. 2715943722324232 -1. 325061754006677 0. 12012190018277118 -0. 04071813117803504 -0 
.21545431663730155 -0. 051182280754264946 -0. 17570888207846716 -0. 1333482994724435 -0. 03905325443786993 0. 27764842840512205 -0 

07241560075487508 -0. 330110436725364 








图 15-7 NBA 球员 比赛 数据 归 一 化 处 理 结 果 1 


A.C. Green 2000 36 PF LAL 82 82 23.5 2.1 4.7 0.447 0.0 0.0 0.25 2.1 4.7 0.449 0.448 0.8 1.2 0.695 2.0 4.0 5.9 1.0 0.6 0.2 0.61.55.0 
0. 002976921421987413 -0. 3618598142864145 -0. 7466602668110601 0. 8975150941158737 -0. 4707109277063714 -0. 15060561869831962 -0 
.42974821697904564 0. 8165383312795694 -0. 5132649979368502 -0. 9558194956006308 4. 0437428812224865E-4 -0. 05031731403066582 -0 
,21545431663730155 0. 21161328943430133 -0. 10298462133134548 -0. 0347962734313615 -0. 06961364427427785 0. 24114418759354717 -0 

13685258964143412 -0. 1568569080304156 

Hersey Hawkins 2000 33 SG CHI 61 49 26.6 2.6 6.1 0.424 0.9 2.3 0.39 1.7 3.8 0.444 0.497 1.8 2.0 0.899 0.5 2.42.9221202162.4 
7.9 -0. 27941733401388125 1.143172881056742 0. 9765025335221765 -0. 29669320953193834 0. 1940893852043964 1. 129056315660952 -0 
.42974821697904564 -0. 4195317633126071 -0. 012661558977680142 2. 0047690326291145 -0. 03795504466337155 0. 1589604221759328 0 
+ 2817769947143218 -0. 06995339291059112 0. 0424639001628979 0. 2608598046918845 -0. 06961364427427785 -0. 12389822052220205 -0 
.00337596980499042 0. 43926484956960404 

Larry Hughes 2000 21 SG IOT 82 37 28.3 5.6 14.0 0.40.41502325.212.50.421 0.413 3.4 4.6 0.74 1.42.94.32.51.40.32.42.3 
15.0 -1. 1968924940358465 0. 33811567135826986 0. 01918986667037839 0. 2606039988370405 0. 36028946343208823 1. 5556102937807095 -0 
. 24108874972524494 -1. 408387838986348 1. 2129537570947704 0. 9003939684258171 -0. 16258156720559036 0. 04701564457488364 0 
.005537377296753273 0. 061444392183692 0. 07882603053645873 0. 3594118307329666 -0. 03905325443786993 -0. 4159321470148013 0 


.3234116166911303 0. 2580799233576229 


图 15-8 NBA 球员 比赛 数据 归 一 化 处 理 结果 2 





(4) 创建 DataFrame 的 元 数据 结构 schemaN。 

(5) 根据 元 数据 结构 schemaN StructType 和 每 行 的 RDD 数据 集 nPlayer: RDD[Row] 创 建 
DataFrame.。 

(6) 将 dfPlayersT 创建 临时 表 视 图 tPlayers。 

(7) 在 Spark SQL 中 编写 SQL 语句 代码 ， 根 据 NBA 球员 比赛 数据 的 业务 查询 需求 编写 
SQL 代码 ， 然 后 展示 打印 输出 。 

(8) 新 建 一 个 临时 表 Players， 将 SQL 查询 转换 后 的 dfPlayers DataFrame 进行 保存 。 

NBA 球员 数据 DataFrame 的 spark sql 代码 如 下 。 


Ys // 为 DataFrame 创建 模式 schema 





= 


中 篇 “商业 案例 











之 Val schemaN: StructType = StructType( 

< StructField("name", StringType, true) :: 
有 StructField ("year", IntegerType, true) :: 
i StructField("age", IntegerType, true) :: 
6. StructField ("position", StringType, true) :: 
StructField("team", StringType, true) :: 
8 . StructField("gp", IntegerType, true) :: 
9. StructField("gs", IntegerType, true) :: 
3 StructField ("mp", DoubleType, true) 
StructField("FG", DoubleType, true) 

了 2 StructField("FGA"，DoubleType，true) 

二 StructEFiel1d ("FGP"，DoubleType，true) 

人 StructField("3P", DoubleType, true) 

人 StructField("3PA", DoubleType, true) 

16. StructField("3PP", DoubleType, true) 

和 StructField("2P", DoubleType, true) 

18. StructField("2PA", DoubleType, true) 

19. StructField("2PP", DoubleType, true) 

20. StructField("eFG", DoubleType, true) 

中 StructField("FT", DoubleType, true) : 
225 StructField ("FTA", DoubleType, true) 

3: StructField ("FTP", DoubleType, true) 

24. StructField ("ORB", DoubleType, true) 

4 StructField ("DRB", DoubleType, true) 






和 26. StructField ("TRB DoubleType, true) 











2 StructField("AST", DoubleType, true) 

和 20: StructField("STL", DoubleType, true) 

和 29: StructField("BLK", DoubleType, true) 
30. StructField("TOV", DoubleType, true) 
SLs StructField("PF", DoubleType, true) : 
2 StructField("PTS", DoubleType, true) 
3 StructField("zFG", DoubleType, true) 
34. StructField("zFT", DoubleType, true) 
Ss 六 StructField("z3P", DoubleType, true) 
36. StructField("zTRB", DoubleType, true) 
S72 StructField("zAST", DoubleType, true) 
385 StructField("zSTL", DoubleType, true) 
395 StructField("zBLK", DoubleType, true) 
40. StructField("zTOV", DoubleType, true) 
Al: StructField("zPTS", DoubleType, true) 
着 2 StructField("zTOT", DoubleType, true) 
入 3 StructField("nFG", DoubleType, true) : 
44. StructField("nFT", DoubleType, true) : 
5 StructField("n3P", DoubleType, true) : 
46. StructField("nTRB", DoubleType, true) 
a StructField("nAST", DoubleType, true) 
48 . StructField("nSsTL", DoubleType, true) 
49. StructField("nBLK", DoubleType, true) 
505 StructField("nTOV", DoubleType, true) 
5 StructField("nPTS", DoubleType, true) 
2 StructField("nTOT", DoubleType, true) :: Nil 
53e ) 

54. 

55. // 创 建 DaraFrame 

S56 val dfPlayersT: DataFrame = spark.createDataFrame (npPlayer, schemaN) 
5 

58. // 将 所 有 数据 保存 为 临时 表 

Ss dfPlayersT.createOrReplaceTempView("tPlayers") 
60 . 


san 
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sm // 计 算 exp 和 zdiff, ND2FF 

62. val dfPlayers: DataFrame = spark.sql("select age-min age as exp, 
tpPlayers.* from tPlayers join" + 

63. " (select namevmin (age)as min age from tPlayers group by name) as t1"” + 

64. ”on tPlayers.name=tl1.name order by tPlayers.name, exp ") 


css println(" 计 算 exp and zdiff, ndiff") 
66. dfPlayers.show() 
67. // 保 存 为 表 


68. dfPlayers.createOrReplaceTempView ("Players") 
69. //filteredStats-unpersist() 
YD 


在 IDEA 中 运行 代码 ，NBA 球员 数据 的 DataFrame 使 用 dfPlayers.show 方法 打印 输出 每 
行 数据 ， 分 别 截图 显示 部 分 输出 结果 ， 如 图 15-9 和 图 15-10 所 示 。 











lexp| nane|year |age |position|team| gp| gs| mp| FG| FGA| FGP| 3P|3PA| 3PP| 2P| 2PA| 2PP| eF6| FTIFTA| 
FIP|ORB|DRB| TRB|AST |STL |BLK|TOV| FF| PTS| zF6| zFT| z3P zTRB| 
zAST| zs1L| zBLK| zTOv| zPTS| zToT| 
nF6| nFT| n3P| nTRB nAST| nSTL| nBLK| 
nTov| nmPTS| mnTOT| 
| 0 A.C. Greenl1986| 22| PF| LAL| 82| 1|18.8|2.5| 4.710.53910.010.110.16712.5| 4.710.545| 0.5411.212.010.61112.012.714.610.710 


.610.6|1.2|2.8| 6.4| 0.49895091840589934| -0. 9386060995484626| -0. 4439580014286059| 0. 3078457327660854| -0. 7217083905580357|1-0 
.30779547745145924| 0. 23664828912184738| 0. 38528648323192205|-0. 47620357949931524| -1. 4595401249601245| 0. 12205043812359: -0 
.23876350390844645|-0. 07518796992481205| 0. 08915559365623643|-0. 14609571788413103| -0. 0563011113440974| 0. 03286893006898416| 

0. 12189859762675298|-0. 14531111766440605| -0. 2956858612503238| 





图 15-9 ”dfPlayers 展示 结果 1 


| 1| A.C. Green|1987| 23| FF| LAL| 79| 72|28.4|4.0| 7.4|0.538|0.0)0.1| 0.0|4.0| 7.4|0.543|0.538|2.8|3.6| 0.78|2.7|5.1|7.8|1.1|0 
.9|1.0|1.3|2.2|10.8| 1.0647443558788734| 0.4317423319030898| -0. 4956343703118639| 1. 4736712977283297| -0.5280946863340036| 
0. 29866739913350376| 0.9393031455733895| 0. 2042513776981104| 0.23705460068644219| 3.6257054519558705| 0. 20229884757986655| 
0. 08108703012520127 |-0. 10652353426919897| ”0. 3743133377279719|-0. 11043091348881631| 0. 0645866213427218| 0. 149537302432233210 
053751503376815724 |0. 055923449487806434| 0. 7645436443146016| 
| 2| A.C. Green|1988| 24| PF| LAL| 82| 64|32.1|3.9| 7.8|0.503|0.0|0.0| 0.0|3.9| 7.8|0.505|0.503|3.6|4.6|0.773|3.0|5.7|8.7|1.1|1 
.1|0. 5|1.5|2.5|11.4| 0.5344617689896461| 0.4672660813119134|-0.48712024642979096| 1.884472699069965| -0.5043192405380542| 
0.6765261358530328| 0. 08403845256928431|-0. 06968723861666007| 0. 35920910809709483| 。 2. 944847520306431| 0. 11827604123363826| 
0. 11540827445867732|-0. 07753335737468439| ”0. 5396323766526926| -0. 0919921267999587| 0. 14663402692778477|0. 014288365188346563|-0 
, 02214891611687.. . | 0. 08871830658292658| 0.8312829907525517| 
| 3| A.C. Green|1989| 25| PF| LAL| 82| 82|30.6|4.9| 9.2|0.529|0.0|0.2|0.235|4.8| 9.0|0.536|0.532|3.4|4.4|0.7865|3.1|5.9|9.0|1.3|1 
.110.7|1.5|2.1|13.3| 1.3345675807499173| 0.6822090371092797| -0. 5024920538018735| 1.9687421401290168|-0. 38359131638997784| 
0. 5564611052881215| 0. 4381116198347995|-0. 05595318985683938| 0.6372690105802086| 4.675323933642653| 0.31023539020714025| 
0. 15279899364513802 |-0. 08206771631600944| 。 0. 540098436595252|-0. 07478092974899755| 0. 13500583430571764| 0. 06654914059056855|-0 
01913006305439. . . | 0.18019184014127934| 1.208900926365691| 





图 15-10 ”dfPlayers 展示 结果 2 


从 图 中 可 以 看 出 , NBA 球员 A.C. Green 参加 了 NBA 1986 年 至 2001 年 度 共计 16 年 度 的 
比赛 。 我 们 也 可 以 将 dfPlayers 转换 成 RDD 以 后 ,通过 map 转换 及 filter 过 滤 函 数 过 滤 出 NBA 
球员 A.C. Green 的 历史 记录 ， 然 后 打印 输出 结果 。 

全 Println(" 打 印 NBR 球 员 的 历年 比赛 记录 ; sh 


2 dfPlayers.rdd.map (x => 
3 (x.getstring(1),x)) .filter( . 1.contains("A.C. Green")).foreach(println) 


在 IDEA 中 运行 代码 ， 过 滤 出 NBA 球员 A.C. Green 的 历史 记录 ， 输 出 结果 如 图 15-11 
所 示 。 


“$7 
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打印 NBA 球 员 的 历年 比 春 记录 : 
[Stage 113:> (0 + 4 /5](AC. Creen, [0,A.C. Green,1986, 22, PF, LAL, 82,1,18.8,2.5,4 
7, 0. 539, 0. 0, 0. 1, 0. 167, 2. 5, 4. 7, 0. 545, 0. 54, 1. 2, 2. 0, 0. 611, 2. 0, 2. 7, 4. 6, 0. 7, 0. 6, 0. 6, 1. 2, 2. 8, 6. 4, 0. 49895091840589934, -0. 9386060995484626, -0 


. 4439580014286059, 0. 3078457327660854, -0. 7217083905580357, -0. 30779547745145924, 0. 23664828912184738, 0. 38528648323192205, -0 
.47620357949931524, -1. 4595401249601245, 0. 12205043812359559, -0. 23876350390844645, -0. 07518796992481205, 0. 08915559365623643, -0 
. 14609571788413103, -0. 0563011113440974, 0. 03286893006898416, 0. 12189859762675298, -0. 14531111766440605, -0. 2956858612503238]) 

(A.C. Green, [1,A.C. Green, 1987, 23, PF,LAL, 79, 72, 28. 4, 4. 0, 7. 4 0. 538, 0. 0, 0. 1, 0. 0, 4. 0, 7. 4 0. 543, 0. 538, 2. 8, 3. 6, 0. 78, 2. 7, 5. 1,7. 8,1. 1 0.9,1.0'1 
.3, 2. 2, 10. 8, 1. 0647443558788734, 0. 4317423319030898, -0. 4956343703118639, 1. 4736712977283297, -0. 5280946863340036, 0. 29866739913350376, 0 
.9393031455733895, 0. 2042513776981104, 0. 23705460068644219, 3. 6257054519558705, 0. 20229834757986655, 0. 08108703012520127, -0 
. 10652353426919897, 0. 3743133377279719, 一 0. 11043091348881631, 0. 0645866213427218, 0. 1495373024322332, 0. 053751503376815724, 0 
- 055923449487806434, 0. 7645436443146016]) 

(A.C. Green, [2,A. C、Green 1988, 24, PF, LAL, 82, 64, 32. 1, 3. 9, 7. 8, 0. 503, 0. 0, 0. 0, 0. 0, 3. 9, 7. 8, 0. 505, 0. 503, 3. 6, 4. 6, 0. 773, 3. 0 5.7) 8. 7, 1. 1 1.10.5 

344617689896461, 0. 4672660813119134, -0. 48712024642979096, 1. 884472699069965， 

28431, -0. 06968723861666007, 0. 35920910809709483, 2. 944847520306431, 0 1182760412336: 

.07753335737468439, 0. 5396323766526926, —0. 0919921267999587, 0. 14663402692778477, 0. 014238365188346563, -0. 022148916116871076, 0 

+ 08871830658292658, 0. 8312829907525517]) 










图 15-11 NBA 球员 A.C. Green 的 历史 记录 


15.3.4 NBA 历年 比赛 数据 按 球员 分 组 统计 分 析 


NBA 历年 比赛 数据 按 球 员 分 组 统计 分 析 具 体 实 现 方法 如 下 。 

(1) 对 NBA 球员 的 DataFrame dfPlayers 先 按 姓名 及 经 验 值 序 号 exp( 这 里 经 验 值 序号 的 
计算 是 将 NBA 球员 的 每 年 比赛 时 的 年 龄 减 去 此 球员 曾经 参加 比赛 的 最 小 年 龄 ， 计 算 一 个 经 
验 值 ， 在 按 此 球员 分 组 时 显示 经 验 值 序号 ) 进行 降序 排列 ， 调 用 rdd 方法 将 DataFrame 转换 
为 RDD， 接 下 来 对 RDD 根据 NBA 球员 比赛 数据 的 统计 需求 进行 map 转换 ， 格 式 化 为 
Key-Value 的 格式 ， 其 中 Key 为 球员 姓名 ，Value 为 (Double, Double, Int, Int, Array[Double]， 
Int) 。map 转换 新 生成 RDD[(String, (Double, Double, Int, Int, Array[Double], Int))]。 

(2) 对 pStats 使 用 groupByKey 算 子 根据 NBA 球员 姓名 进行 分 组 , 分 组 以 后 生成 的 RDD 
pStats， 类 型 为 RDD[(String, Iterable[(Double, Double, Pt Int, Array[Double], Int)])]， 格 式 为 
Key-Value, Key 是 NBA 球员 姓名 , Value 是 Iterable 迭代 器 。 由 于 dfPlayers 转换 以 后 的 RDD 
中 包括 NBA 球员 历年 比赛 的 数据 记录 ， 因 此 按 NBA 球员 姓名 进行 分 组 以 后 ， 将 按照 NBA 
球员 姓名 进行 聚合 ,同一 个 NBA 球员 的 比赛 数据 记录 将 聚合 成 一 条 记录 。 对 于 NBA 球员 历 
年 的 比赛 数据 ， 可 以 使 用 for 循环 语句 打印 Iterable 中 的 迭代 元 素 。 

(3) 对 分 组 以 后 的 NBA 比赛 数据 进行 缓存 。 

(4) 打印 输出 NBA 球员 历年 比赛 数据 。 在 对 pStats 的 Value 值 (x. 2) 进行 遍历 时 , x._2 
是 一 个 Iterable 迭代 器 ， 我 们 将 Iterable 转换 成 数组 Array 以 后 ， 数 组 中 的 元 素 是 一 个 元 组 ， 
元 组 中 包括 6 个 元 素 ，6 个 元 素 的 类 型 分 别 为 : (Double, Double, Int, Int, Array[Double], Int)， 
分 别 获取 每 个 元 素 使 用 “，” 进 行 拼接 打印 输出 ， 其 中 第 5 个 元 素 仍 是 一 个 数组 ， 我 们 调用 
数组 的 mkString(" | 方法 ， 将 第 5 个 元 素 此 数组 中 的 元 素 使 用 “|” 分 隔 以 后 打印 输出 。 











7/ 术 林 束 束 束 来 束 束 束 求 素 束 来 玉 宁 束 束 来 

2 // 统 计 分 析 

人 / /六 六 六 六 六 六 六 六 六 六 六 六 来 来 六 六 六 率 闵 六 

A 

Sa // 按 球员 名 字 分 组 

6 val dfPlayersRDD: RDD[ (String, (Double, Double, Int， Int, Array 


[Double], Int))] =dfPlayers.sort (dfPlayers ("name"), dfPlayers ("exp") 
asc) .rdd.map (x => 


se 
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这 (x.getstring(1), (x.getDouble(50), x.getDouble(40), x.getInt (2), 
x.getInt (3), 

82 Array (x.getDouble(31), x.getDouble(32), x.getDouble(33), 

x.getDouble(34), x.getDouble(35), 

I x.getDouble(36), x.getDouble(37), x.getDouble(38), x.getDouble 

(39)), x.getInt(0)))) 

10. 

人 val PStats: RDD[ (String, Iterable[ (Double, Double, Int, Int, Array 
[Double], Int)])] = dfPlayers.sort(dfPlayers ("name"), dfPlayers ("exp") 
asc) .rdd.map (x => 

12> (x.getstring(1), (x.getDouble(50), x.getDouble(40), x.getInt (2), 

x.getInt (3), 

区 全 Array (x.getDouble (31) ，x.getDouble (32) ，x-getDouble (33) ，x-getDouble (34) ， 

x.getDouble (35) ， 

a X-getDouble (36), x.getDouble(37), x.getDouble(38), x.getDouble(39)), 

x.getInt (0)))) 

3s .groupByKey 

16. PStats.cache 

1 println ("********** 根 据 NBA 球员 名 字 分 组 : sh 

一 < PStats.take (15) .foreach(x => { 

次 val myx2: Iterable[ (Double, Double, Int, Int, Array[Double], Int)] =x. 2 

20- println(" 按 NBA 球员 "+x-._ 1+" 进行 分 组 ,组 中 元 素 个 数 为 : " + myx2.size) 

改正 二 for (i <- 1 to myx2.size) { 

pv val myx2size: Array[ (Double, Double, Int, Int, Array[Double], Int)] 

= myx2.toArray 

二 val mynext: (Double, Double, Int， Int， Array[Double], Int) = 

myx2size(i - 1) 
24. printin(E Feet x Tt while 4 mynext 4 huyneoxt: 2 rH ean 
25: 4 mnext. 3 4 "中 mynext. 企业 一， "+ mynext. 5.mkString(" 
Mi a 

5 + mynext. 6) 

2 } 

28- 

29. }) 


在 IDEA 中 运行 代码 ， 各 NBA 球员 历年 比赛 数据 显示 输出 结果 如 下 。 


工 。 www** 站 根据 NBA 球员 名 字 分 组 : 
2. 按 NBA 球 员 Ticky Burden 进行 分 组 ， 组 中 元 素 个 数 为 : 2 
2 


1 : Ticky Burden , while NaN, NaN ，1977 ，23 ， -0.6044576934502505 
-0.8412145834216773 || NaN 11 -1.0255911476495823 || -0.6748427858591513 
-0.02653087908155743 11 -0.8073063498178507 11 NaN 11 
-0.6057684427416488 0 

4. 2 : Ticky Burden ，while NaN, NaN, 1978 , 24, -0.24519181462070969 
1 -0.3625849339335772 || NaN || -1.3750184794003877 | 
-1.0771703003088466 || -0.661301276913946 11 -0.8395535379341299 
1.8623897720774216 || -1.3843610042164856 下 


5. 按 NBA 球 员 Mike Miller 进行 分 组 ， 组 中 元 素 个 数 为 : 16 
6. 1 : Mike Miller ，while 0.6850657516085638 ，2.7043002558967197 ，2001 ， 











208 0.09942421490696489 11 -0.22744626593747377 11 2.615968313590763 
11 0.1465279100082745 11 -0.06819346117564598 11 -0.1520055271653655 
-0.4324268269064523 11 0.04210420956399251 11 0.6803476890116621 0 

7. 2 : Mike Miller ，while 0.8900247732778397 ,4.309214482353773 ,2002， 
2 0.15211021867758653 11 0.3129797163416611 11 2.328193996192313 
11 0.26946346735406823 11 0.6857468344583921 || 0.06604153848660722 | 
-0.09268751781179885 || -0.636820696475112 11 1.2241869251300554 a 

8. 3 : Mike Miller, while 1.0832980841639197 ,4.722323449993903 ，2003 ， 
2 0.2442504460819869 11 1.0968611638428813 11 2.2418027978864536 
| 


0.6535403686491095 11 0.4830277706163585 11 -0.1540658801895493 | 


Ye 
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-0.2578077282339976 11 -0.8650689937005274 11 1.2797835050411863 
9. 4 : Mike Miller , while 0.6597686977121573 , 2.606620129894566 ，2004 ， 
多 3 0.23960944027544986 11 -0.14858114384165513 
1.3342733513356602 11 -0.11432468760563451 11 1.0774857600742487 
0.5054852017284827 11 -0.4115758747556613 11 -0.4530062626577849 
0.5772543453414607 ee | 
10. 5 : Mike Miller , while 1.0161733339413734 ，4.590390252689687 ，2005 ， 
24 ， 1.7296411647848224 11 -0. 19205553968724373 Us 1571870175598313 
11 0.13182088906215006 11 0.6421646603684523 11 0.11992240020228848 | 
-0.22239768296112397 11 -0.6534648462831214 11 0.8775721896436323 ，4 
11. 6 : Mike Miller , while 0.9977947449783138 ，5.046645379184111 ，2006 ， 
这 全 0.5531982944425201 11 0.6135777095588025 11 2.3190446880510933 
11 0.7926580931605534 11 0.5729116646487513 11 0.21667885050859406 
0.006451111691680683 11 -0.9363490309404241 11 0.9084739980625388  ，5 
12. 7 : Mike Miller , while 1.650517474001914 ，7.134146483925148 ，2007 ， 
On 0.5270017267319922 11 0.4798406988528217 11 3.7133431130431824 
11 0.7643576849738877 11 1.4001410217241135 11 0.42005377032412117 
-0.18258263715507275 11 -1.6260973802760275 11 1.6380884857061297 ，6 
13. 8 : Mike Miller , while 1.3133699942353605 ，5.401135277847273 ,2008， 
人 1.5529069893496565 11 0.4058208109132261 11 2.5559301197655686 
11 1.2326313536861488 || 0.8440957346766597 11 -0.2684179047380797 
-0.4306738978184909 11 -1.8225967640068124 11 1.3314388360193972 nh 
14. 9 : Mike Miller , while 0.5734468850025483 , 2.5112393543942533 ，2009 ， 
0 0.5189380631832368 11 -0.2160265412705209 11 0.9802020907937623 
11 1.2026538942524694 || 1.4803860923736023 11 -0.5294774294348025 
-0.07176441430155282 || -1.0803050219732657 11 0.22663262077132446 ，8 
15. 10 : Mike Miller ，while 0.958449193125004 ，3.733433766444313 ，2010 ， 
2 0.8612250838806804 11 0.3179326781864516 11 1.5173165363367993 
11 1.0137831299243059 || 1.1643930828314868 11 0.18020452329899148 
=0-55011914666380154 11 L215690771687951240 I O039546791L550312577 9 
6.11 : Mike Miller, while -0.29347820905755756， -1.763458223108538，, 2011，, 
S00 -0.7013416635715775 11 -0.42080520471622745 
0.7571942743956656 || 0.3804268294575492 || -0.3087281640843859 
-0.28427972338550167 || -0.9469791817476815 11 0.21225963181769425 
-0.4512050212740733 人 
7.12 : Mike Miller, while 0.07142224106269339， -0.5221381704016791，, 2012，, 
三 -0.11954057342167189 Ml -0.40409034293903157 
1.4046903328230618 11 -0.11189396474350337 11 -0.36610268870172846 
-0.6127682429692385 || -0.49968733764574624 || 0.521516896855799 
-0.3342622496596199 pr 
8. 13 : Mike Miller , while -0.14384868876900747 ，-1.0063327682068888 ， 
3 be ec -0.17620651413761934 11 -0.29112729830094763 
0.9282731583962052 11 -0.32548024406260884 11 -0.059587675974944194 
-0.5516399655790644 11 -0.7034076570377812 || 0.7480110247641681 
-0.5751675962742966 人 
9. 14 : Mike Miller , while -0.0903503537589224 ，-0.49970776283493756 ， 
220 关 0.35109325571501176 11 -0.05182514210961124 
0.9826688443655516 11 -0.41409681899060763 11 -0.09913247529764337 
-0.7622768313158717 11 -0.6724319422017886 11 0.3355490304181267 
-0.16925568341810523 | 
20. 15 : Mike Miller, while -0.8599519450026487,，, -3.798801467447749， 2015， 
3 -0.6736851211371261 11 -0.23317877480844645 
-0.069583364878147 11 -0.7202553668317317 || -0.5303790955293763 
-0.81369967347111 | -0.6449637880550209 11 0.98314941611857 
-1.0962056988553603 | 
21.16 : Mike Miller，while -0.7933007669491381 ，-3.9162696664446126 ，2016 ,， 
35 -0.34219721906458794 11 -0.28418680944243174 
-0.3490592074254263 | -0.8895932363798921 || -0.44828266728246297 
-0.7306920273216803 11 -0.6534242946356905 11 0.9323148901405814 11 - 
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15.3.5 ”NBA 球员 年 龄 值 及 经 验 值 列表 获取 


基于 NBA 历届 各 年 的 历史 比赛 数据 ， 计 算 每 个 NBA 球员 的 valueZ 及 valueN 球员 价值 
的 变化 情况 。 将 结果 保存 成 两 个 列表 : 一 个 为 年 龄 列表 ; 一 个 为 经 验 列表 。 这 里 由 于 1980 
年 我 们 只 有 部 分 数据 ，1980 年 原始 记录 统计 不 全 ， 因 此 数据 清洗 时 将 1980 年 的 数据 过 滤 掉 。 

NBA 球员 年 龄 值 及 经 验 值 列表 获取 具体 实现 方法 如 下 。 

(1) 从 dfPlayers 中 过 滤 出 比赛 年 份 为 1980 年 的 数据 ， 选 择 姓 名 列 ， 通 过 collect 算 子 收 
集 以 后 ， 使 用 mkstring 函数 将 参加 1980 年 比赛 的 NBA 球员 的 姓名 用 “，” 拼 接 成 字符 串 。 

(2) 将 NBA 球员 姓名 进行 分 组 以 后 生成 的 RDD pStats 通过 map 函数 进行 转换 ，pStats 
中 每 行 元 素 是 一 个 元 组 (String, Iterable[(Double, Double, Int, Int, Array[Double], mb])， 将 其 进 
行 模式 匹配 , 元 组 中 的 第 一 个 元 素 是 姓名 name， 元 组 中 的 第 二 个 元 素 是 stats， 其 数据 类 型 为 
Iterable[(Double, Double, Int, Int, Array[Double], Int)]。 使 用 foreach 方法 遍历 stats 的 Iterable 
的 每 个 元 素 ， 根 据 NBA 业务 统计 需求 进行 计算 。 

(3) pStats 进行 map 转换 时 ， 创 建生 成 年 龄 列表 aList、 经 验 值 列表 eList， 其 类 型 为 
ListBuffer[(Int, Array[Double])]， 最 后 将 年 龄 列表 aList 经 验 值 列表 eList) 组 合成 一 个 元 组 
返回 ,生成 pStatsl 的 RDD, 其 元 素 类 型 为 RDD[(ListBuffer[(Int, Array[Double])], ListBuffer[(Int, 
Array[Double])])]。 

(4) pStatsl 使 用 cache 算 子 进行 缓存 。 

(5) 按 NBA 球员 的 年 龄 及 经 验 值 打印 输出 。 其 中 ，x._1 是 年 龄 列表 aList 的 值 , x._1 Gi 
-1) 遍历 aList 列表 中 的 每 个 元 素 , 其 中 aList 列表 每 一 个 元 素 的 第 一 个 值 是 年 龄 x._1(i-1)._1， 
第 二 个 元 素 是 一 个 数组 x._1(i-1). 2， 我 们 使 用 分 隔 符 ("|") 进 行 拼接 。 其 中 ，x._2 是 经 验 值 列 
表 eList 的 值 ，x._2 (i-1) 遍历 eList 列表 中 的 每 个 元 素 ， 其 中 eList 列表 每 个 元 素 的 第 一 个 

直 是 经 验 值 exp x._2(i-1). 1， 第 二 个 元 素 是 一 个 数组 x. 2(i-1). 2， 我 们 使 用 “||” 进 行 拼接 。 

NBA 球员 年 龄 值 及 经 验 值 代码 如 下 。 

1. import spark.implicits. 

2 // 计算 每 个 NBA 球员 的 valuez 及 valueN 球员 价值 的 变化 情况 .将 结果 保存 成 两 个 列表 : 

// 一 个 为 年 龄 列表 一 个 为 经 验 列表 


二 val excludeNames: String = dfPlayers.filter(dfPlayers("year") === 
1980) .select (dfPlayers ("name")) 








尖 .map(x => x.mkString) .collect () .mkString(",") 

全 

[证 val pStatsl: RDD[ (ListBuffer[ (Int, Array[Double])], ListBuffer[ (Int, 
Array [Double])])] = pStats.map { case (name, stats) => 

网 全 var last = 0 

9: var deltaz = 0.0 

上 站 var deltaN = 0.0 

ne Var valuez = 0.0 

于 下 var valueN = 0.0 

El Var exp = 0 

取保 val aList = ListBuffer[ (Int, Array[Double])]() 

省 二 人 val eList = ListBuffer[ (Int, Array[Double])]() 

:人 stats.foreach(z => { 

46, Elast SIO 

Es deltaN = z. 1 - valueN 

18 . deltadl= Zz. 2 = valvuez 


a 
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} else { 
deltaN = Double.NaN 
deltaz = Double.NaN 
} 


valueN = z. 1 
Value2 = Z- 2 
last = z。 4 
aList += ((last, Array(valueZz, valueN, deltaz, deltaN))) 
if (!excludeNames.contains(z. 1)) { 
exp = 2z. 6 
eList += ((exp, Array (valueZz, valueN, deltaz, deltaN))) 
} 
}) 
(aList, eList) 
E 


pstatsl.cache 


println(" 按 NBA 球员 的 年 龄 及 经 验 值 进 行 统计 : 。") 
PStatsl.take (10) .foreach(x => { 
//pStatsl: RDD[ (ListBuffer[ (Int, Array[Double])], ListBuffer[ (Int, 
Array [Double])])] 
for (lL <= 1 to XX LSELZG € 
FEEintln(" 年 龄 : "十 x. 1(i 一 1). 1i","+x. 1(i - 1). 2.mkString("||") + 
Vv 如 验 2( I) 2mkString( il 
} 
}) 


在 IDEA 中 运行 代码 ,NBA 球员 年 龄 值 及 经 验 值 列表 获取 显示 输出 结果 如 图 15-12 所 示 。 


按 NEA 球 员 的 年 龄 及 经 验 值 进行 统计 : 
年 龄 ，23 ，NaN| |NaN| |NaN| |NaN 忽 验 : 0 ，NaN| |NaN| |NaN| |NnN 
NaN| |NaN| INaN| |NaN 闻 验 : 1 ，NaN| |NaN| |NaN| |NaN 
043002558967197110. 685 
09214452353773110. 89 
8397| |1. 604914226457053 
.722323449993903111. 0832980841639197110. 41310896764013005| 10. 19327331083608002 经 验 : 2 ，4. 722323449993903| |1 
1639197| |0. 41310896764013005110, 19327331083608002 

29894566| |0. 6597686977! 11-2. 1157033200993367| |-0. 4235293864517624 经 驰 : 3 ，2. 606620129894566110 
11570332009933671|-0. 423529386451 

















经 验 : 0 ，2 7043002558967197| 10. 6850657516085638| |NaN| |NaN 
778391111. 604914226457053| 10, 20495902166927593 ”经验 ; 1 ，4. 309214482353773110 
0. 20495902166927593 






图 15-12 NBA 球员 年 龄 值 及 经 验 值 列 表 获 取 


15.3.6 ”NBA 球员 年 龄 值 及 经 验 值 统计 分 析 


NBA 球员 年 龄 值 及 经 验 值 统计 分 析 的 具体 实现 方法 如 下 。 

(1) 对 已 获取 的 年 龄 列表 aList 及 经 验 值 列表 eList 的 RDD pStatsl 通过 flatMap 算 子 进行 
转换 ， 提 取 年 龄 列表 数据 生成 新 的 RDD pStats2。 

数据 类 型 RDD[(ListBuffer[(Int，Array[Double])]，ListBuffer[(Int，Array[Double])])] 转 换 为 
RDDI(Int, Array[Double])]。 


(2) 将 RDD pStats2 通过 processStatsAgeOrExperience 函数 处 理 ， 传 入 参数 age， 生 成 入 


“she 


证 
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龄 统计 的 DataFrame dfAge。 

(3) 打印 展示 dfAge。 

(4) 对 已 获取 的 年 龄 列表 aList 及 经 验 值 列表 eList 的 RDD pStatsl 通过 flatMap 算 子 进行 
转换 ， 提 取经 验 列表 数据 生成 新 的 RDD pStats3。 

数据 类 型 RDD[(ListBuffer[(Int，Array[Double])]，ListBuffer[(Int，Array[Double])])] 转 换 为 
RDDI(Int, Array[Double])]。 

(5) 将 RDD pStats3 通过 processStatsAgeOrExperience 函数 处 理 ， 传 入 参数 Experience， 
生成 经 验 统计 的 DataFrame ddfExperience。 

(6) 打印 展示 dfExperience。 

NBA 球员 年 龄 值 及 经 验 值 代码 如 下 。 

本 /六 六 六 六 六 来 闵 率 六 六 六 兴 六 六 六 来 六 六 冰冰 


2 // 计 算 年 龄 统计 分 析 


二 /六 六 六 六 六 六 六 六 率 六 六 六 六 六 六 六 浆 浆 素 六 

4. 

5. // 抽 取 年 龄 列表 age 1ist 

6- val pStats2: RDD[(Int，RArray[Double] ) ]=pStatsl.flatMap { case (x, y) =>x} 
了 号 

8. // 创 建 年 龄 dataframe 

:让 val dfAge: DataFrame = processStatsAgeOrExperience (pStats2, "age") 


DE dfAge.show() // 展 示 


JT // 保 存 为 表 
32- dfAge.createOrReplaceTempView ("Age") 


Ta // 抽 取经 验 列表 experience 1ist 
Se val pStats3: RDD[ (Int, Array[Double])] = PStats1.flatMap { case (x, y)=>y} 


16 

a // 创 建 经 验 dataframe 

18. val dfExperience: DataFrame = processStatsAgeOrExperience (pStats3, 
"Experience") 

TDs dfExperience.show() 

20E // 保 存 为 表 

dfExperience.createOrReplaceTempView ("Experience") 

32 // 去 掉 持 久 化 

3 PStatsl.unpersist() 


在 IDEA 中 运行 代码 , NBA 球员 年 龄 列表 DataFrame dfAge.show0 的 显示 结果 如 图 15-13 
所 示 。 





lagelvaluez_eount valuel_pean| valuel_stdev valuel_ max valuez_min|valueN_eount| valueN_mean| 
valueN_stdev| valueN_max| valueN_nin|Beltaz_count deltaZ_pean delta7_stdev deltaZ_max| 
deltaz_ min|deltaN_count deltaN_mean| deltaN_stdev deltaN_ sax| deltaN_min| 
1 25| 1455. 0| 0. 25379208325747654| 4. 469784981759089| 16. 37868106915914| -9.768147167470113 1455.0] 0. 05356755942526729 
0.9363648516284568| 。 4. 084154283162466|-2. 0434554117927335 1297. 0| 0. 28261995970634324|2. 6146273726911073| 13. 0007261691423481 
9. 877047197045437| 129 060896748790134854| 0. 5579199143095| 9988850416463215|-1. 61 925501425| 







1 30| 883. 0| 0. 638662 8317183| 19. 250691022504732| -8. 908506726387039| 8583. 0| 0. 13588879424834538 
0. 8678142345635947| 。 3, 95329: 6053934938 856. 0| -0. 6245408433328: 1963997515| 13 

~ 46284963135733|-11. 626289129299085 856. 01-0. 13836179606647828| 0.5473719505010776| 2. .9701318159216368| 

1 35| 251. 01-0. 13235133435419635| 3. 961448143850996| 11. 2253788964018998| -8. 576621367534942| 3176256936783. .. 
0.8259434133041167| 。 2. 37338783765759|-1. 717747800527: 248.0| -1. 053143830421057412 034830] 3 
839124523312493|-11. 394073219134894| 248. 0| -0. 2275861148364875| 0. 4374962873798658| 0. 87618504107351 1. 8979816577642625| 


















图 15-13 NBA 球员 年 龄 列表 DataFrame dfAge.show0 的 显示 结果 
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NBA 球员 经 验 列表 DataFrame dfExperience.show() 的 显示 结果 如 图 15-14 所 示 。 











|Experience|value7_count | value7_nean value7_stdev| valueZ_max| value7_min|valueN_count| 

valueN_mean | valueN_stdev| valueN max| valueN min|deltaZ_count| deltaZ_nmean| deltaz_stdev| 
deltaz_max| deltaz_nin| deltaN_count| deltaN_mean| deltaN_stdev| deltaN_nax| deltaN_nmin| 

| 15| 90.0| -0.348780200560152| 4.146224123151| 11.21414315439408| -6.36267200315876| 90.0|-0 

. 09838034502652812| 0. 8597100317394312| 。 2. 37338783765769|-1. 3618458180628608|| 90. 0| -1. 32156390899947| 2. 494686233791554 
4. 949390589183601| -9. 713975160916561| 90. 0|-0. 29985188278545294| 0. 5012939060825078| 0. 8761850410735177| -1. 8523304625735544 

1 ol 2502. 0| -2.699725685968074|2.9097378003192222| 13.307255142897896|-12. 426726255774238| 2502.0| -0 

. 5709560010594176| 0. 606056640307347| 2.9231669384755223|-2. 5456706028768226| 6.0| 0.9449536820938823| 4. 340782917423647 
8. 547256226143105| -4. 46240737700405| 6.0| 0. 26506254886106556| 1. 0257103369016858| 2.22195651872156377| -0. 9483858042334511 

| 20| 3. 0| -2. 7881137061708317| 1. 180383156651202|-1. 1413975097661644|-3. 8485391389696755| 3.0| -0 

. 5800732617179493| 0. 3031146424370221 |-0. 15140860346456714|-0. 7960411339228379| 3.0| -1. 4685559595246707|1. 0389147731704078|-0 
. 0823613251839248| -2. 583392752747825| 3. 0| -0. 2867980479922298|0. 23379500428993494|0. 043164217649615644| -0. 4700502915010994 

| 10| 562. 0| ”0. 5781598777498813| 4. 224673728993368| 15.779549978808273| -7. 495648146600065| 562.0| 0 
.13113052602508968| 0. 889720273904276| 3. 1317470994374585|-1. 6978042762106786| 551.0| -1.042677772297701|2. 3445804672158435| 
11. 130624597433679| -9. 996872630906652| 551. 0|-0. 21897173557180127| 0. 5084908560909539| 2. 4110473116912563| -2. 1962330901489002 


图 15-14 NBA 球员 经 验 列表 DataFrame dfExperience.show0 的 显示 结果 


15.3.7 NBA 球员 系统 内 部 定义 的 函数 、 辅 助 工具 类 


NBA 球员 系统 内 部 定义 的 函数 包括 statNormalize、bbParse、processStatsAgeOrExperience、 
processStats; 辅助 工具 类 包括 BballData、BballStatCounter。 

NBA 球员 系统 内 部 定义 的 函数 、 辅 助 工 具 类 跟 NBA 篮球 运动 员 大 数据 分 析 系 统 的 业务 
相关 ， 如 读者 对 NBA 篮球 比赛 系统 感 兴趣 ， 可 以 深入 研究 NBA 篮球 系统 具体 的 指标 算 
法 的 计算 。 这 里 不 对 NBA 业务 需求 实现 展开 叙述 。 

NBA 球员 系统 内 部 定义 的 函数 、 辅 助 工具 类 如 下 。 
:1 7/ 水 冰冰 求 束 素 来 素 束 束 束 素来 束 素 求 素来 束 素 


全 // 类 ， 辅 助 函数 、 变 量 











之 人 / /六 六 六 六 六 六 六 六 六 六 浆 闵 六 六 率 闵 六 六 浆 浆 

4. import org.apache .spark.sql.Row 

import org.apache.spark.sql.types._ 

| 训 import org.apache.spark.util.StatCounteL 

Be import scala.collection.mutable.ListBuffer 

9 

可 0 // 计 算 归 一 化 的 辅助 函数 

了 def statNormalize(stat: Double, max: Double, min: Double) = { 
se val newmax = math.max (math.abs (max), math.abs (min)) 

ds stat / newmax 

A } 

了 

ee // 初 始 化 + 权重 统计 + 归 一 统计 

多 case class Bball1Data (val year: Int, name: String, position: String, 


age: Int, team: String, gp: Int, gs: Int, mp: Double, stats: Array 
[Double], statsZz: Array[Double] = Array[Double] (), valueZz: Double = 
0, statsN: Array[Double] = Array[Double] (), valueN: Double = 0, 
experience: Double = 0) 


8s 
19. // 解 析 转 换 为 BBallDataz 对 象 
20. def bbParse (input: String, bStats: scala.collection.Map[String, 


+ 
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21s 
22. 
23% 
24. 
Ze 
26. 
Ze 
2 
29> 
30- 
3 
2 
33> 
34. 
3 
365 
Ss 
38- 


3 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48 . 
49 . 
S9- 
5 
2 
全 人 
54. 
Ds 
56. 
5 
S80 


Ss 


60. 


Double] = Map.empty, zStats: scala.collection.Map[String, Double] = 
Map -empty) = { 


val 
val 
val 
val 
val 
val 
val 
val 
val 
val 
val 
var 
var 
var 
var 


£ 


line = input.replace(™,,", ",0,") 

pieces = line.substring(1, line.length - 1).split(" 
year = pieces (0) .toInt 

name = pieces (2) 

position = pieces (3) 

age = pieces (4) .toInt 

team = pieces (5) 

gp = pieces (6) .toInt 

gs = pieces (7) .toInt 

mp = pieces (8) .toDouble 

stats = pieces-slice(9，31) .map (x => x.toDouble) 
stats2: Array[Double] = Array.empty 

valueZz: Double = Double.NaN 

statsN: Array[Double] = Array.empty 

valueN: Double = Double.NaN 





(!bStats.isEmpty) { 


val fg = (stats(2) - bstats.apply(year.toString + " FG% avg")) * 
stats (1) 

val tp = (stats(3) - bsStats.apply(year.toString + " 3P avg")) / 
bstats.apply (year.toString + " 3P stdev") 

val ft = (stats(12) - bStats.apply (year.toString + " FT% avg")) 站 
stats (11) 

val trb = (stats(15) - bStats.apply (year.toString + " TRB avg")) 
/ bstats.apply (year.toString + " TRB stdev") 

val ast = (stats(16) - bStats.apply (year.toString + " AST avg")) 
/ bsStats.apply (year.toString + " AST stdev") 

val stl = (stats(17) - bsStats.apply (year.toString + " STL avg")) 
/ bstats.apply (year.toSstring + "_STL stdev") 

val blk = (stats(18) - bsStats.apply (year.toString + " BLK avg")) 
/ bsStats.apply (year.toString + " BLK stdev") 

val tov = (stats(19) - bstats.apply (year.tostring + "_TOV avg")) 
/ bstats.apply (year.toString + "_TOV stdev") * (-1) 

val pts = (stats(21) - bstats.apply (year.toString + "_PTS avg")) 
/ bstats.apply (year.toString + "_PTS_ stdev") 

statsz = Array(fg;, ftr tp, trb, ast; stl blk; tov, pts) 

valuez = statsZ.reduce( + ) 


if (!zStats.isEmpty) { 


val zfg = (fg - zStats.applYy(year.toString + " FG avg")) / 
zStats.apply (year.tostring + " FG stdev") 
val zft = (ft - zStats.apply(year.tostring + " FT avg")) / 
zStats.apply (year.tostring + " FT stdev") 
val fgN = statNormalize(zfg, (zStats.apply(year.toString + 


" FG max") - zStats.apply (year.toString + " FG avg")) 
/ zStats.apply(year.toString + " FG stdev"), (zStats.apply 
(year.toString + " FG min") 
- ZzStats.apply(year.toString + " FG avg")) / zStats.apply 
(year -toString + " FG stdev")) 

val ftN = statNormalize(zft, (zStats.apply(year.toString + 

”FT max") - zStats.apply(year.toString + " FT avg")) 
/ zStats.apply(year.toString + " FT stdev"), (zStats.apply 
(year.tostring + " FT min") 
- zStats.apply(year.toString + " FT avg")) / zStats.apply 
(year.tostring + " FT stdev")) 

val tpN = statNormalize(tp, zStats.apply(year.toString + 

" 3P max"), zStats.apply(year.toString + " 3P min")) 

val trbN = statNormalize(trb, zStats.apply(year.toString + 
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™ TRB max")，zStats-apply(year-toString + " TRB min") ) 


61;, val astN = statNormalize(ast, zStats.apply(year.toString + 
" AST max"), zStats.apply (year.tostring + " AST min")) 

62> val stlN = statNormalize(stl, zStats.apply(year.toString + 
™ STL max"), zStats.apply(year.toSstring + " STL min")) 

63 val blkN = statNormalize(blk, zStats.apply(year.toString + 
" BLK max"), zStats.apply(year.toString + " BLK min")) 

64. val tovN = statNormalize (tov， zStats.apply(year.toString + 
”TOV max"), zStats.apply(year.toString + " TOV min")) 

65% val ptsN = statNormalize(pts, zStats.apply(year.toString + 
”PTS max"), zStats.apply(year.toString + " PTS min™)) 

66. statsz = Array(lzfqr ZEt;, tpy trby, asty Stl, blk;r tow pts} 

67- valuez = statsZ.reduce( + ) 

68 . statsN = Array (fgN, ftN, tpN, trbN, astN, stlN, blkN, tovN, ptsN) 

69- valueN = statsN.reduce( + ) 

TO 和. 

JTL +. 

了 全 BballData (Year，name，Pposition，age，team，gp，gs，mp，stats，stats2， 

valueZz, statsN, valueN) 

3 } 

74. 

多 人 

6 // 该 类 是 一 个 辅助 工具 类 ， 在 后 面 编写 业务 代码 的 时 候 会 反复 使 用 其 中 的 方法 

gy class BballStatCounter extends Serializable { 

78. Val stats: StatCounter = new StatCounter() 

了 9= var missing: Long = 0 

80. 

8 二 = def add(x: Double): BballStatCounter = { 

82 . if (x.isNaN) { 

83. missing += 1 

84. } else { 

8 与 Stats .merge (x) 

86 . } 

87. this 

88. } 

89e 

90. def merge (other: BballStatCounter): BballStatCounter = { 

91. stats.merge (other.stats) 

92. missing += other.missing 

93< this 

94 } 

95. 

96. def PrintStats (delim: String): String = { 

9 stats.count + delim + stats.mean + delim + stats.stdev + delim + 

stats.max + delim + stats.min 

98- } 

995 

100. override def toString: String = { 

101. "stats: " + stats.tostring + " NaN: " + missing 

102. } 

103. } 

104. 

05s object BballstatCounter extends Serializable { 

106. def apply (x: Double) = new BballStatCounter() .add (x) 
// 这 里 使 用 了 Scala 语言 的 一 个 编程 技巧 ， 借 助 于 apply 工厂 方法 ， 在 构造 该 对 象 
// 的 时 候 就 可 以 执行 结果 

OF } 

108. 

109. // 处 理 原 始 数据 为 zScores and nScores 
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TO def processStats (stats0: org.apache.spark.rdd.RDD[String], 
txtStat: Array[String], 
TE bstats: scala.collection.Map[String, Double] = 
Map .empty, 
本 有 zStats: scala.collection.Map[String, Double] = 
Map.empty) = { 
TE // 解 析 stats 
114. val statsl = stats0.map(x => bbParse(x, bsStats, zStats)) 
15> 
了 GE // 按 年 份 进行 分 组 
7 val stats2 = { 
118 . if (bStats.isEmpty) { 
E95 statsl.keyBy(x => x.year).map(x => (x. 1, x. 2.stats)). 
groupByKey () 
5 1 加 } else { 
| statsl.keyBy(x => x.year) .map(x => (x. 1, x. 2.statsz)). 
groupByKey () 
le } 
全 } 
124. 
2 // 转 换 成 StatCounter 
6 val stats3 = stats2.map { case (x, y) => (x, y.map(la => a.map(b 
=> BballStatCounter(b)))) } 
127- 
128. // 合 并 
329- Val stats4 = stats3.map { case (x, y) => (x, y.reduce((a, b) => 
a.zip(b) .map { case (c, d) => c.merge(d) })) } 
130s 
人] //combine 合并 聚合 
2 val stats5 = stats4.map { case (x, y) => (x, txtStat.zip(y)) }.map 
{ 
335 x => (x 2.map 
34。 caseo ly Zz) => Nx yz 
BE 
36. // 使 用 逗号 分 隔 符 打印 输出 
汪 75 val stats6 = statsS. FlatMap (x => -mp{y => (vy ir Ye 2 
Y= 3S:prinEStatst".")))) 
38. 
39. // 转 换 为 key-value 键 值 对 
40 . Val stats7 = stats6.flatMap { case (a, b, c) => { 
es val pieces = c.split(",") 
42 . val count = pieces (0) 
43. val mean = pieces (1) 
44 . val stdev = pieces (2) 
A val max = pieces (3) 
46 . val min = pieces (4) 
人 Array(t (a + we weCounte CoamEEtoDoubjiehy 
148. {a + b+ + "avg”, mean.toDouble), 
149. 《本 eV stdev-toDounblie)y 
150- 人 EGGJDenilej 
151. {a nn nin-toDouble)) 
I } 
于 及 3 } 
154. stats7 
Us 忆 
JS65 
Ts // 处 理 经 验 值 函 数 
98 def processStatsAgeOrExperience (stats0: org.apache.spark.rdd. 


“ls 
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RDD[ (Int, Array[Double])], label: String) = { 








159. 

160. 

To // 按 年 龄 分 组 

362- val statsl = stats0.groupByKey () 

163. 

164. // 转 换 为 StatCounter 对 象 

165. val stats2 = statsl.map { case (x, y) => (x, y.-.map(z => z.mapl(a 
=> BballStatCounter(a)))) } 

166. 

eT // 通 过 合并 StatCounter 对 象 汇聚 行 数据 

168 . Val stats3 = stats2.map { case (x, y) => (x, y.reduce((a, b) => 
a.zip(b) .map { case (c, d) => c.merge(d) })) } 

169. 

了 0 // 转 换 为 RDD[Row] 对 象 

:所 记 val stats4 = stats3.map(x => Array(Array(x. 1.toDouble), 

2 x. 2.flatMap(y => y.printStats(",") .split(",")) .map(ly => 

Y-toDouble) ) .flatMap(Y => y)) 

A -map(x => 

ls Row(z(0) tont xz(l) x ze ZA RS ZO ET AB 

115s x(M (10 X(N (L127 x(L3)7 x (LA (LS5) x(L6N7 x(LT)s 

x(18), x(19), x(20))) 

1765 

0 // 创 建 年 龄 列表 的 元 数据 

Bs Val schema = StructTypel( 

179. StructField(label, IntegerType, true) 

80 . StructField("valueZz count", DoubleType, true) 

81. StructField("valueZz mean", DoubleType, true) 

182. StructField("valueZz stdev", DoubleType, true) 

83 . StructField("valueZz max", DoubleType, true) 

84. StructField("valueZz min", DoubleType, true) 

85 . StructField("valueN count", DoubleType, true) 

86 . StructField("valueN mean", DoubleType, true) 

87- StructField("valueN stdev", DoubleType, true) 

88. StructField("valueN max", DoubleType, true) 

89 . StructField("valueN min", DoubleType, true) 

90 . StructEield("dqelta2Z Ce DoubleType，true) 

9 StructField("delta2 mean", DoubleType, true) 2- 

2% StructField("deltaz SE DoubleType, SE) a 

935 StructField("deltaz max", DoubleType, true) 3 

94. structField("deltaz 1 min", DoubleType, true) 

Ee StructField("deltaN count", DoubleType, true) :: 

96. StructField("deltaN mean", DoubleType, true) 3 

DT StructField ("deltaN stdev", DoubleType, true) 

98 . StructField("deltaN max", DoubleType, true) 

199. StructField ("deltaN min", DoubleType, true) :: Nil 

200. ) 

201. 

2 // 创 建 data frame 

203. spark.createDataFrame (stats4, schema) 

204. } 


15.4 NBA 篮球 运动 员 大 数据 分 析 完 整 代码 测试 和 实战 
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Analysis.scala， 如 例 15-1 所 示 。 
【 例 1S-1】NBABasketball Analysis.scala 代码 。 


package com.dt.spark.sparksql 


import scala.language.postfixOps 
import org.apache.hadoop.conf.Configuration 
import org.apache.hadoop.fs.{FileSystem, Path} 
import org.apache.1o0g4j.{Level, Logger} 
import org.apache.spark.SparkConf 
import org.apache.spark.broadcast.Broadcast 
import org.apache.spark.rdd.RDD 
. import org.apache.spark.sql.{DataFrame, SparkSession} 


. import scala.collection.{Map, mutable} 


/A 


* 版 权 : DT 大 数据 梦 工 厂 所 有 

* 时 间 : 2017 年 1 月 26 日 ; 

NBA 篮球 运动 员 大 数据 分 析 决策 支持 系统 : 

基于 NBA 球员 历史 数据 1970 年 至 2017 年 各 种 表现 ， 全 方位 分 析 球 员 的 技能 ， 构 建 最 强 
NBA 篮球 团队 做 数据 分 析 支 撑 系 统 

曾经 非常 火爆 的 梦幻 篮球 是 基于 现实 中 的 篮球 比赛 数据 根据 对 手 的 情况 制定 游戏 的 先 发 阵 
容 和 比赛 结果 也 就 是 说 ， 比 赛 结果 是 由 实际 结果 决定 的 ) ， 游 戏 中 可 以 管理 球员 ， 例 如 ， 
调整 比赛 的 阵容 ， 其 中 也 包括 裁员 、 签 入 和 交易 等 


* 


这 里 的 大 数据 分 析 系 统 可 以 被 认为 是 游戏 背后 的 数据 分 析 系 统 
具体 关键 的 数据 项 如 下 所 示 : 

3P: 3 分 命中 ; 

3PA: 3 分 出 手 ; 

3P%: 3 分 命中 率 ; 


2PA: 2 分 出 手 ; 
2P%: 2 分 命中 率 ; 
TRB: 篮板 球 ; 
STL: 抢断 ; 
AST: 助攻 ; 
BLT: 盖帽; 

FT: 罚球 命中 ; 
TOV: 失误 ; 


美美 美美 美美 党 沉 美美 美美 美 美美 美美 美美 美美 美美 % 


基于 球员 的 历史 数据 ， 如 何 对 球员 进行 评价 ? 也 就 是 如 何 进行 科学 的 指标 计算 ， 一 个 比较 流 
行 的 算法 是 Z-score: 其 基本 的 计算 过 程 是 : 

局 妹 于 球员 的 得 分 江天 和 均 信 后 除 以 标准 六 ， 举 一 个 简单 的 例子 ， 某 个 球员 在 2016 年 的 平均 

* 篮板 数 是 7.1， 而 所 有 球员 在 2016 年 的 平均 篮板 数 是 4.5 

* 标准 差 是 1.3， 那 么 该 球员 z-score 得 分 为 2 


* 在 计算 球员 的 表现 指标 中 ， 可 以 计算 FT%、BLK、AST、FG% 等 


党 


具体 如 何 通过 Spark 技术 来 实现 呢 ? 
第 一 步 : 数据 预 处 理 : 例如 ， 去 掉 不 必要 的 标题 等 信息 ; 
第 二 步 : 数据 的 缓存 : 为 加 速 后 面 的 数据 处 理 打下 基础 ; 


六 
六 
六 
六 
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* 第 三 步 : 基础 数据 项 计算 : 方差 、 均 值 、 最 大 值 、 最 小 值 、 出 现 次 数 等 ; 

* 第 四 步 : 计算 z-score， 一 般 会 进行 广播 ， 可 以 提升 效率 ; 

* 第 五 步 : 基于 前 面 四 步 的 基础 , 可 以 借助 Spark SQL 进行 多 维度 NBA 篮球 运动 员 数 据 分 析 ， 
* 可 以 使 用 SQL 语句 ， 也 可 以 使 用 Dataset (我 们 在 这 里 会 优先 选择 使 用 SQL， 为 什么 呢 ? 
* 原因 非常 简单 ， 复 杂 的 算法 级 别 的 计算 已 经 在 前 面 四 步 完 成 了 且 广 播 给 了 集群 ， 我 们 在 SQL 
* 中 可 以 直接 使 用 ) 

* 第 六 步 : 把 数据 放 在 Redis 或 者 DB 中 ; 


Tips: 

1. 这 里 的 一 个 非常 重要 的 实现 技巧 是 :通过 RDD 计算 出 一 些 核心 基础 数据 ， 并 广播 出 去 ， 后 面 
的 业务 基于 SQL 去 实现 ， 既 简单 ， 又 可 以 灵活 地 应 对 业务 变化 需求 ， 希 望 对 大 家 有 所 启发 ; 
2. 使 用 缓存 和 广播 以 及 调整 并 行 度 等 提升 效率 ; 


水 
二 


. Object NBABasketball Analysis { 


def main (args: Array[String]) { 
Logger .getLogger ("org") .setLevel (Level .ERROR) 
Var masterUrl = "local[4]" 
if (args.length > 0) { 
masterUr1 = args(0) 


} 
// 根据 给 定 的 master URL 地 址 创建 SparContext 
/** 


* Spark SQL 默认 情况 下 Shuffle 的 时 候 并 行 度 是 200， 如 果 数 据 量 不 是 非常 大 的 情 
* 况 下 ， 设 置 200 的 Shuffle 并 行 度 会 拖 慢 速度 ， 所 以 这 里 我 们 根据 实际 情况 进行 了 调 
* 整 ， 因 为 NBA 的 篮球 运动 员 的 数据 并 不 是 那么 多 ， 这 样 做 同时 也 可 以 使 机 器 得 到 更 有 效 
* 的 使 用 (如 内 存 等 ) 

*/ 


val conf = new SparkConf() .setMaster (masterUT1) .set ("spark.sql. 
shuffle.partitions", "5").setAppName ("FantasyBasketball") 
val spark = SparkSession 

.builder() 

.appName ("NBABasketball Analysis") 

.config(conf) 

.getOrCreate () 


val sc = spark.sparkContext 


/ /六 六 六 六 六 六 六 六 六 玉 六 六 六 率 率 六 六 六 六 六 


//SET-UP 


/ /六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 


val DATA PATH = "data/NBABasketball™" 
// 数 据 存在 的 目录 
Val TMP PATH = "data/basketball tmp" 


val fs = FileSystem.get (new Configuration()) 
fs .delete (new Path (TMP PATH), true) 


// 处 理 文件 使 每 行 包 含 一 年 的 数据 
Eorm (i <=> L970 Eo 2016) OU 
println (i) 
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99 . val YearStats = sc.textFile(s"${DATA PATH}/leagues NBA S$i*"). 
repartition(sc.defaultParallelism) 
100. yearStats.filter(x => x.contains(",")) .map(x => (i, x)) .saveAs 
TextFile(s"${TMP PATH}/BasketballStatsWithYear/$i/") 
0 } 
102. 
03 
104 . /六 六 六 六 六 六 六 六 闵 迷 六 六 六 六 六 闵 浆 六 六 六 
105. //CODE 
106 . /六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 浆 六 六 六 
One // 前 切 和 粘贴 到 Spark Sheu。 输 入 :paste 进入 “前 切 和 精 贴 ”模式 ,然后 输入 Ctrl+D 
// 组 合 键 进行 处 理 
108. // 输 入 spark-shell 命令 : spark-shell --master yarn-client 
109. /六 六 六 六 六 来 六 六 六 六 六 这 六 六 六 六 六 六 六 浆 
110: 
二 ET 
王公 > /六 六 六 六 六 六 六 六 六 六 六 率 闪 六 六 六 六 六 六 冰 
TT // 类 、 辅 助 函数 + 变量 
下 4 /六 六 六 玉米 闵 闵 六 六 六 六 六 六 六 六 六 六 浆 冰冰 
115, import org.apache.spark.sql.Row 
16. import org.apache.spark.sql.types._ 
LETS import org.apache.spark.util.StatCounter 
118. 
19. import scala.collection.mutable.ListBuffer 
120. 
2 // 用 辅助 函数 计算 归 一 化 值 
22.. def statNormalize (stat: Double, max: Double, min: Double) = { 
235 Val newmax = math.max (math.abs (max), math.abs (min) ) 
24. stat / newmax 
2 } 
党 下 
2 // 保 持 初始 化 的 篮球 统计 加 权 及 归 一 化 数据 统计 
2 case class BballData (val year: Int, name: String, position: String, 
9 age: Int, team: String, gp: Int, gs: Int, mp: Double, 
30s stats: Array[Double], statsZz: Array[Double] = 
Array [Double] ()， 
ee valueZ: Double = 0, statsN: Array[Double] = 
Array [Double] ()， 
号 2 valueN: Double = 0，experience: Double = 0) 
33< 
Sa // 解 析 数 据 为 BBallDataz 对 象 
358 def bbParse (input: String, bstats: scala.collection.Map[String， 
Double] = Map.empty, 
{家 zStats: scala.collection.Map[String, Double] = Map. 
empty): BballData = { 
人 val line = input.replace(.,,", ",0,") 
3 val pieces = line.substring(1, line.]length - 1).split(",") 
9 val year = pieces (0) .toInt 
A val name = pieces (2) 
和 val position = pieces (3) 
142. Val age = pieces (4) .toInt 
本 可 val team = pieces(5) 
144. Val gp = pieces (6) .toInt 
有 Val gs = pieces (7) .toInt 
146. val mp = pieces (8) .toDouble 
人 全 
148. val stats: Array[Double] = pieces.slice(9, 31) .map (x => x.toDouble) 
9 Var statsZz: Array[Double] = Array.empty 


a 
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150. 
5 
92 
3 
154 < 
155. 
L503 
二 
L583 
是 9 
160 . 
ol 
62 . 
1535 
64. 
165 . 
66 . 
67 . 
68 . 
和 9 
IOs 
i 
2 
ye 
74. 
Le 
76. 


5 





TB 


匠人 入 


180. 


181. 


182. 


L835 


184. 


“3 


Var valueZz: Double = Double.NaN 
Var statsN: Array[Double] = Array.empty 
Var valueN: Double = Double.NaN 


if (!bSstats.isEmpty) { 
val fg: Double = (stats(2) - bstats.apply (year.toString + 
"_FG% avg")) * stats (1) 
val tp = (stats(3) - bstats.apply (year.toString + " 3P avg")) 
/ bstats.apply (year.toString + " 3P stdev") 
val ft= (stats (12) - bStats.apply (year.toSstring +" FT% avg")) 
* stats(11) 
val trb= (stats (15) - bStats.apply (year.toSstring +" TRB avg")) 
/ bsStats.apply (year.toString + " TRB stdev") 
val ast= (stats(16) - bsStats.apply (year.tostring +" AST avg")) 
/ bstats.apply (year.toString + " AST stdev") 
val stl= (stats(17) - bStats.apply (year.toSstring +" STL avg")) 
/ bstats.apply (year.toString + "_ STL stdev") 
val blk= (stats (18) - bStats.apply (year.toString +" BLK avg")) 
/ bsStats.apply (year.toString + " BLK stdev") 
val tov= (stats (19) - bStats.apply (year.toString +" TOV avg")) 
/ bsStats.apply (year.toString + " TOV stdev") * (-1) 
val pts= (stats (21) - bStats.apply (year.toString +" PTS avg")) 
/ bsStats.apply (year.toString + " PTS stdev") 
statsz = Array(fg, Et tp; trb, ast, stl, blk; tov: pts) 
valuez = statsZ.reduce( + ) 





if (!zStats.isEmpty) { 
val zfg = (fg - zStats.apply (year.toString + " FG avg")) / 
zStats.apply (year.toString + " FG stdev") 
val zft = (ft - zStats.apply (year.toString + " FT avg")) / 
zStats.apply (year.toString + " FT stdev") 
val fgN = statNormalize (zfg, (zStats.apply (year.toString + 
"_FG max") - zStats.apply (year.toString + "_FG avg")) 
/ zStats.apply (year.tostring +" FG stdev"), (zStats.apply 
(Year.toString + "_FG min™ 
- zStats.apply (year.toString + "_FG avg")) / zStats.apply 
(Year.toString + "_FG stdev")) 
val ftN = statNormalize(zft, (zStats.apply (year.toString + 
”FT max") - zStats.apply (year.toString + "_FT avg")) 
/ zStats.apply (year.toSstring + "FT stdev"), (zStats.apply 
(year.tostring + "_FT min" 
- zStats.apply (year.toSstring + " FT avg")) / zStats.apply 
(year.toString + " FT stdev")) 
val tpN = statNormalize (tp, zStats.apply (year.toString + 
" 3P max"), zStats.apply (year.toString + " 3P min") 
val trbN = statNormalize (trb, zStats.apply (year.tostring + 
" TRB max"), zStats.apply(year.toString + " TRB min")) 
val astN = statNormalize (ast, zStats.apply(year.tostring + 
" AST max"), zStats.apply(year.toString + " AST min")) 
val stlN = statNormalize (stl, zStats.apply (year.toString + 
" STL max"), zStats.apply(year.toString + " STL min")) 
val blkN = statNormalize (blk, zStats.apply (year.toString + 
" BLK max"), zStats.apply(year.toString + " BLK min")) 
val tovN = statNormalize (tov, zStats.apply (year.toString + 
"_TOV max"), zStats.apply (year.tostring + "TOV min")) 
Val ptsN = statNormalize (pts, zStats.apply(year.toString + 
”PTS max"), zStats.apply(year.tostring + " PTS min")) 
Statsw = Arrav zigr (zit tp, trbr astr stlr Dik> Eom pes) 
// println ("bbParse 函数 中 打印 statsz: "+ statsz.foreach 
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(printin( )) ) 


有 valuez = statsZ.reduce( + ) 
186. statsN = Array (fgN, ftN, tpN, trbN, astN, stlN, blkN, tovN, ptsN) 
8 了 = // ”println("bbParse 函数 中 打印 statsN: " + statsN.foreach 
(Println( )) ) 
188 . valueN = statsN.reduce( + ) 
了 895 } 
190> ;} 
91 BballData (year, name, position, age, team, gp, gs, mp, stats, 
statsZz, valueZz, statsN, valueN) 
192- } 
3 
194. // 统 计 类 counter， 需 要 printStats 方法 打印 出 统计 
SE // 该 类 是 一 个 辅助 工具 类 ， 在 后 面 编写 业务 代码 的 时 候 会 反复 使 用 其 中 的 方法 
1 class BballStatCounter extends Serializable { 
97s val stats: StatCounter = new StatCounter() 
198. var missing: Long = 0 
9 
200 . def add (x: Double): BballStatCounter = { 
20.= if (x.isNaN) { 
O25 missing += 1 
过 035 } else { 
204. stats.merge (x) 
2053 
206 . this 
207. } 
208 . 
209. def merge (other: BballStatCounter): BballStatCounter = { 
21095 stats.merge (other.stats) 
2 missing += other.missing 
pa this 
2Q43: } 
214. 
ZE3< def PrintStats (delim: String): String = { 
216< stats.count + delim + stats.mean + delim + stats.stdev + delim 
+ stats.max + delim + stats.min 
217e } 
249- 
2195 override def toString: String = { 
220 . mstatss "+ stats-toString + ~ NaN ™ + missing 
之 2 } 
2222。 1 
这 之 3 
2 object BballSstatCounter extends Serializable { 
全 之 8 def apply(x: Double) = new BballstatCounter() .add (x) 
// 这 里 使 用 了 Scala 语言 的 一 个 编程 技巧 , 借助 于 apply 工厂 方法 , 在 构造 该 对 象 
// 的 时 候 就 可 以 执行 结果 
2268 i 
Zs 
228% // 处 理 原始 数据 为 zScores 和 nscores 
229. def processStats (stats0: org.apache.spark.rdd.RDD[String], 
七 xtStat: Array[String], 
230. bstats: scala.collection.Map[String, Double] = 
Map .empty, 
ZI zStats: scala.collection.Map[String, Double] = 
Map.empty): RDD[ (String, Double)] = { 
2 // 解 析 数 据 
和 2335 val statsl: RDD[BballData] = stats0.map (x => bbParse (x, bstats, 


“587s 
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zStats)) 

234. 

235. // 按 年 度 分 组 

2 val stats2 = { 

2 if (bstats.isEmpty) { 

:加 statsl.keyBy(X => ZX.year) .map(X => (x. 1l, xX. 2.3tats)). 

groupByKey () 
29> } else { 
240. statsl.keyBy (Xx => xX.year) .map(x => (x. 1, x. 2.stats2Z)). 
groupByKey () 

241. } 

242. ! 

243. 

244. // 转 换 每 个 stat 到 statCounter 

56 val stats3 = stats2.map { case (x, y) => (x, y.map(la => a.map(b 
=> BballStatCounter(b)))) } 

246. 

247 // 合 并 所 有 统计 数据 

248. val stats4 = stats3.map { case (x, y) => (x, y.reduce((a, b) => 
a.zip(b) .map { case (c, d) => c.merge(d) })) } 

we 

250. // 将 统计 数据 打上 标签 ， 并 解析 标签 

4 val stats5 = stats4.map{case (x, y) => (x, txtStat.zip(y)) }.map { 

252: x => 

PR 这 (x. 2.map { 

a case (YY; 2) => (zx: 1 Yr 2 

255: }) 

256: } 

25 

258. // 将 每 个 统计 数据 分 离 到 自己 的 行 上 ， 并 将 统计 数据 打印 到 一 个 字符 串 中 

5 val stats6 = stats5.flatMap(x => x.map(ly => (y. 1, y. 2, 
mine toast 

260. 

261. // 打 开 属 性 元 组 与 相应 的 属性 的 键 / 值 对 

262. val stats7: RDD[ (String, Double)] = stats6.flatMap { case (a, b, 
ch = 

263 . val pieces = c.split(",") 

264. val count = pieces (0) 

05- val mean = pieces (1) 

266. val stdev = pieces (2) 

GT val max = pieces (3) 

268. val min = pieces (4) 

这 0995 /* println ("processStats 函数 的 返回 结果 array" + 

2 No + "count", count.toDouble), 

de ,Cs + "avg", mean.toDouble), 

全 | 人 全 二 + "stdev", stdev.toDouble), 

人 二 | 人 + "max", max.toDouble), 

274. (a mn mintoDonble)y)*/ 

275 

276. 

2 Arravy (da CODE countstoDonbley, 

BR (a vg meantoDouble), 

上 位 ED NOTE SEEdqews stdev.toDouble), 

280 . (a Ta ma toDoUuble)s 

2 (a bn onable)y 

2 } 

283% } 

284. SS 


“SB 
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285. ; 

286. 

DJ // 年 龄 或 经 验 值 的 设计 

288. def processStatsAgeOrExperience (stats0: org.apache.spark.rdd. 

RDD[ (Int, Array[Double])], label: String): DataFrame = { 

289: 

290. 

291. // 按 年 龄 分 组 

925 val statsl: RDD[ (Int, Iterablel[Array[Double]])] = stats0. 
groupByKey () 

ES 

294. val stats2: RDD[ (Int, Iterable[Arrayl[lBballstatCounter]])] = 
statsl.map { 

295. case (x: Int, y: Iterable[Array[Double]]) => 

296. (x, y.-.map((z: Array[Double]) => z.map((a: Double) => 

BballstatCounter (a) ) ) ) 

2 } 

298. // 合 并 Statcounter 对 象 进行 汇聚 

299. val stats3: RDD[ (Int, Arrayl[lBballStatCounter])] = stats2.map 
{ case (x, y) => (x, y.reduce((a, b) => a.zip(b) .map { case (c， 
d) => c.merge(d) })) } 

300 . // 将 DataFrame 数据 转化 为 RDD[Row] 

S01 Val stats4 = stats3.map(x => Array (Array(x. 1.toDouble), 

DZ x. 2.flatMap(y => y.printstats(",") .split(",")) .map(Yy => 

y:toDouble)) .flatMap(ly => y)) 

3035 -map (X => 

304 . Row (x(0N -tornty xz(1), x(2) za x(a) (De (Ol (Ne 08 

305 . 人 EOLON XAT (LZ) (3) (LA (LS (LO x(LI)s 

x(18), x(19), x(20))) 

306. 

3078 / /为 年 龄 表 创 建 schema 模式 

308. Val schema = StructTypel( 

S09 StructField (label, IntegerType, true) :: 

310: StructField("valueZz count", DoubleType, true) :: 

Sl: StructField("valueZz mean", DoubleType, true) 

S12 StructField("valueZz stdev", DoubleType, true) 

3L35 StructField("valueZz max", DoubleType, true) 

SA StructField("valueZz min", DoubleType, true) 

S315. StructField("valueN count", DoubleType, true) 

316. StructField("valueN mean", DoubleType, true) 

3 StructField("valueN stdev", DoubleType, true) 

318 . StructField("valueN max", DoubleType, true) 

3L95 StructField("valueN min", DoubleType, true) 

3208 StructField("deltaz count", DoubleType, true) 

321e StructField("deltaz mean", DoubleType, true) 

3 StructField("deltaz stdev", DoubleType, true) 

323 StructField("deltaz max", DoubleType, true) : 

sj StructField("deltaz min", DoubleType, true) 

3 structField("deltaN count", DoubleType, true) :: 

3208 StructField("deltaN mean", DoubleType, true) :: 

人 StructField("deltaN stdev", DoubleType, true) :: 

2 StructField("deltaN max", DoubleType, true) :: 

攻克 StructField("deltaN min", DoubleType, true) :: Nil 

330e 和 

S31.s 

S32 // 创 建 DataFrame 

SS3SR spark.createDataFrame (stats4, schema) 

334. ]} 

S308 


“S09. 
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336- 
337. 
S38 
339. 
340. 
上 
342. 
343. 
344. 


345. 
346. 


347. 
348 . 
349. 


3595 
35L> 
3522 
535 
354. 
SS 
3565 


S573 


356. 
359 
360 . 


361.。 
362= 


03 
364. 
.05 


366 . 
367e 
368 . 
369: 
S702 
S311. 
2 
373u 


374. 


375. 
376s 


二 了 和 
号 85 
ST 
380. 
381: 


“Sk 


/六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 来 六 


// 处 理 + 转 换 


/六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 六 六 六 六 六 


/六 六 六 六 闵 六 六 六 闵 迷 六 六 交 六 六 六 六 六 六 六 


// 计 算 每 年 总 统计 数量 


/玉米 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闲 闵 六 


// 读 入 所 有 统计 信息 
val stats = sc.textFile(s"${TMP PATH}/BasketballSstatsWithYear/* 
/*") .repartition(sc.defaultParallelism) 


// 过 滤 掉 垃圾 行 ， 清 理 录 入 错误 的 数据 
val filteredStats: RDD[String]l = stats.filter(x => !x.contains 
("FG$")) .filter(x => x.contains(",")) 

snap (lr => x rplacet "meplacel rr "0 
filteredSstats.cache() 
println ("NBA 球员 清洗 以 后 的 数据 记录 : “") 
filteredStats.take (10) .foreach (Println) 


// 统 计数 据 ， 并 保存 为 map 
val txtStat: Array[String] =Array ("FG", "FGA", "FG%", "3P", "3PA", 
"3pS", "2Pp", "2PA", "2Pp%", "eFG$%", "FT", 
"FTA", "FTS", "ORB", "DRB", "TRB", "AST", "STL", "BLK", "TOV", 
"pF", "pTS") 
println ("NBA 球员 数据 统计 维度 : ") 
txtStat.foreach (println) 
val aggStats: Map [String，Double] = processStats (filteredstats, 
txtStat) .collectAsMap// 基 础 数据 项 ， 需 要 在 集群 中 使 用 ， 因 此 会 在 后 面 广播 出 去 
println ("NBA 球员 基础 数据 项 aggStats MAP 映射 集 : ") 
aggStats.take (60) .foreach { case (k, v) => println(" ("+k+" 
a 


// 收 集 RDD 为 map， 并 创建 广播 变量 
val broadcastStats: Broadcast [Map[String, Double]] = sc.broadcast 


(aggStats) // 使 用 广播 提升 效率 


/六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闲 


// 统 计 计 算 每 年 的 2-Score 值 


/六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闲 


// 解 析 统 计 信息 ， 并 跟踪 权重 

ERESESEZE RATES7 (EG eT pn TRB AST" nS Tin BER 
pti ed sg | 

val zStats: Map[String, Double] = processStats (filteredstats, 
txtStatZz, broadcastSstats.value) .collectAsMap 

println ("NBA 球员 Z-Score 标准 分 zStats MRP 映射 集 : ") 
zStats.take (10) .foreach { case (k, v) => println(" ("+k+" 

a hd (od |} 

// 收 集 RDD 为 map， 并 创建 广播 变量 


val zBroadcaststats = sc.broadcast (zStats) 


/六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 
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382 // 计 算 每 年 规范 化 的 统计 数据 

223 /六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 

384. 

385. // 解 析 统 计 信 息 并 规范 化 

386. val nstats: RDD[BballData] = filteredStats.map(x => bbParse(x, 

broadcaststats.value, zBroadcastStats.value)) 

BTe 

388 . // 转 换 RDD 为 RDD[Row] ， 我 们 可 以 把 它 转换 成 一 个 DataFrame 

3895 

305 val nPlayer: RDD[Row] = nStats-map(XxX => { 

3 val nPlayerRow: Row = Row.fromSeq(Array (x.name, x.year, x.age, 
Xx.position, x.team, x.gp, XxX.g3, x.mp) 

392% ++ Xx.stats ++ x.statsZz ++ Array(x.valueZz) ++ x.statsN ++ 

Array (x.valueN)) 

393. //println( nplayerRow.mkstring(" ")) 

394. nPlayerRow 

395- }) 

396: 

397. // 为 DataFrame 创建 Schema 模式 

398> Val schemaN: StructType = StructTypel( 

399. StructField("name", StringType, true) :: 

400. StructField("year", IntegerType, true) :: 

401. StructField("age", IntegerType, true) :: 

402. StructField("position", StringType, true) :: 

403. StructField("team", StringType, true) :: 

404. StructField("gp", IntegerType, true) 

405. StructField("gs", IntegerType, true) 

406. StructField("mp", DoubleType, true) : 

DO 了 StructField("FG", DoubleType, true) : 

408. StructField ("FGA", DoubleType, true) 

409. StructField ("FGP", DoubleType, true) 

410. StructField("3P", DoubleType, true) : 

六 StructField("3PA", DoubleType, true) 

Cb StructField("3PP", DoubleType, true) 

43 StructField("2P", DoubleType, true) 

414. StructField("2PA", DoubleType, true) 

Se StructField("2PP", DoubleType, true) 

416. StructField("eFG", DoubleType, true) :: 

417. StructField("FT", DoubleType, true) :: 

418. StructField ("FTA", DoubleType, true) :: 

419. StructField ("FTP", DoubleType, true) 

420. StructField ("ORB", DoubleType, true) 

4 StructField ("DRB", DoubleType, true) 

六 作 人 2 StructField ("TRB", DoubleType, true) 

过 3 StructField ("AST", DoubleType, true) 

424. StructField("STL", DoubleType, true) 

8 StructEield("BLK"，DoubleType，true) 

426 . StructEield("TOV"，DoubleType，true) 

二 这 StructField("PF", DoubleType, true) : 

2 StructEield("PTS"，DoubleType，true) 

429. StructField("zFG", DoubleType, true) 

430. StructField("zFT", DoubleType, true) 

1 StructField("z3P", DoubleType, true) 

M32 StructField("zTRB", DoubleType, true) 

33 StructField("zAST", DoubleType, true) 

434. StructField("zSTL", DoubleType, true) 

435. StructField ("zBLK", DoubleType, true) 

436. StructField("zTOV", DoubleType, true) 

4372 StructField("zPTS", DoubleType, true) 

438. StructField("zTOT", DoubleType, true) :: 


-91 
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StructField("nFG"，DoubleType，true) 
StructField("nFT"，DoubleType，true) 
StructField("n3P"，DoubleType，true) 


StructField("nTRB" 
StructField("nRST"， 
StructField("nSTL"， 
StructField("nBLK", 
StructField ("nTOV", 


7 DoubleType, 
DoubleType, 
DoubleType, 
DoubleType, 
DoubleType 


true) 
true) 
true) 
true) 
true) 





StructField("nPTS", DoubleType, true) 
StructField ("nTOT", DoubleType, true) :: Nil 


// 创 建 DataFrame 
val dfPlayersT: DataFrame = spark.createDataFrame (nPlayer, schemaN) 


// 将 所 有 统计 数据 保存 为 临时 表 
dfPlayersT.createOrReplaceTempView("tPlayers") 


// 计 算 exp 和 zdiff, NDIFF 

val dfPlayers: DataFrame = spark.sql("select age-min age as 
exp,tPlayers.* from tPlayers join"+" (select name,min(age)as 
min age from tPlayers group by name)as tl" + " on tPlayers.name= 
tl.name order by tPlayers.name, exp ") 


println ("计算 exp and zdiff, ndiff") 
dfPlayers. show () 

// 保 存 为 表格 
dfPlayers.createOrReplaceTempView ("Players") 
//filteredStats.unpersist () 


/六 六 六 六 闵 闵 六 六 六 六 六 六 六 率 浆 六 六 六 浆 来 


//ANALYSIS 
/六 六 六 六 六 来 六 六 六 六 六 六 六 妆 浆 冰冰 六 浆 浆 


println ("打印 NBA 球员 的 历年 比赛 记录 : bd) 

dfPlayers.rdd.map (x => 
(x.getSstring(1), x)).filter( . 1.contains("A.C. Green") ) .foreach 
(println) 


val pStats: RDD[ (String, Iterable[ (Double, Double, Int, Int, 
Array [Double], Int)])] = dfPlayers.sort(dfPlayers ("name"), 
dfPlayers ("exp") asc) .rdd.map (x => 
(x.getstring(1), (x.getDouble(50), x.getDouble(40), x.getInt 
(2), x.getInt (3), 
Array (x.getDouble (31), x.getDouble (32), x.getDouble (33), x.getDouble 
(34), x.getDouble(35), 
x.getDouble (36), x.getDouble(37), x.getDouble(38), x.getDouble 
(39)), x.getInt (0)))) 
.groupByKey 
PStats.cache 


print]n("******《**** 根 据 NBA 球员 名 字 分 组 : Ee 
pstats.take(15) .foreach(x => { 
val myx2: Iterable [ (Double, Double, Int, Int, Array[Double], Int)] 
三 人 
println(" 按 NBA 球 员 " + x. 1 + "进行 分 组 ， 组 中 元 素 个 数 为 : " + 
myx2.size) 
for (i <= 1 to myx2.size) { 
val myx2size: Array[ (Double, Double, Int, Int, Array[Doublel], 
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Int) ] = myx2.toArray 


487 了 7- val mynext: (Double, Double, Int, Int, Arrayl[Double], Int) = 
myx2size(i - 1) 
488. pintln lr he se mE 
+ oxE 2 
489. ynexts 3t "7 "+Dynexto 4 "+mynext. 5.mkString 
te ls I ey a 

490. + mynext. 6) 

491. } 

492. 

493 . }) 

494. 

495. 

496. import spark.implicits._ 

497. // 每 个 球员 计算 这 些 年 份 valnez 值 和 valneN 值 的 变化 ， 保 存 成 两 个 列表 ， 一 个 是 
// 年 龄 ,一 个 是 经 验 值 。 不 包括 1980 年 份 的 球员 数据 ， 因 为 我 们 只 有 他 们 的 部 分 数据 

498 . 

499 . 

500 . val excludeNames: String = dfPlayers.filter (dfPlayers ("year") === 
1980) .select (dfPlayers ("name")) 

Sol .map(x => x.mkString) .collect () .mkString(",") 

502. 

S03 val pStatsl: RDD[ (ListBuffer[(Int, Array[Double])], ListBuffer 


[(Int, Array[Double])])] = pStats.map { case (name, stats) => 


504. var last = 0 

三 人 SEE var deltaz = 0.0 

506 . var deltaN = 0.0 

507- var valuez = 0.0 

508 . var valueN = 0.0 

509,。 Var exp = 0 

SLOE val aList = ListBuffer[ (Int, Array[Double])]() 

Se val eList = ListBuffer[(Int, Array[Double])]() 

SE stats.foreach(z => { 

5 下 3 iF (Last > Ot. 

514. deltaN = z. 1 - valueN 

SDS deltaz = z. 2 - valuez 

Ch } else { 

SE7e deltaN = Double.NaN 

二 下 和 deltaz = Double.NaN 

本 } 

520- ValueN = z.1 

S21 valueZz = z. 2 

人 人 last = z. 4 

5 aList += ((last, Array (valueZz, valueN, deltaz, deltaN))) 

2 if (!excludeNames .contains(z- 1)) { 

与 255 exp = Z. 6 

5 eList += ((exp, Array (valueZz, valueN, deltaz, deltaN))) 

5 } 

528. }) 

529. (aList, eList) 

Ss } 

Seals 

DC PStatsl .cache 

与 335 

D3 

535s println (" 按 NBA 球员 的 年 龄 及 经 验 值 进 行 统计 : a ) 

S36. PStatsl.take (10) .foreach(x => { 

Sa //pStats1: RDDI[ (ListBuffer[ (Int, Array[Double])], ListBuffer 
[(Int, Array[Double])])] 

S38 fori(i <= Lto.x lsize) 


93.2 
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539 Printin(t" 和 年 家 we UI LU =) 2 akSEeing 
a a 
540. nseriag 
ee 
与 4 于 二 } 
542. }) 
543 
544 
545. /六 六 六 六 六 六 六 六 六 六 六 这 六 闵 六 闵 闵 闵 六 来 
546. // 计 算 年 龄 统计 
9 /六 六 六 六 六 六 六 六 六 六 六 这 六 妆 六 六 六 六 六 来 
548 
549. // 提 取出 年 龄 列表 
OOE val pStats2: RDD[ (Int, Array[Double])] = PStatsl.flatMap { case 
(x7 => 2 
551。 
5 / /创建 年 龄 及 DataFrame 
5535 val dfAge: DataFrame = processStatsAgeOrExperience (pStats2, "age") 
G7 dfAge.show() 
S55 // 作 为 表 保 存 
SO dfAge.createOrReplaceTempView ("Age") 
Ss 
558. // 提 取出 经 验 值 列表 
559i val pStats3: RDD[ (Int, Array[Double])] = PStatsl.flatMap { case 
(ry > 
560. 
So / /创造 经 验 值 DataFrame 
562. val dfExperience: DataFrame =processStatsAgeOrExperience (pStats3, 
"Experience") 
3 dfExperience.show() 
564. // 作 为 表 保 存 
565. dfExperience.createOrReplaceTempView ("Experience") 
566. 
So pstatsl .unpersist () 
568 . 
569. //while (true){} 
570 . } 
571 
S72 } 


15.5 NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 案例 涉及 的 核心 
知识 点 、 原理 、 源码 


15.5.1 知识 点 : StatCounter 源码 分 析 


NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 案例 中 定义 了 一 个 BballStatCounter 类 。 
BballStatCounter 类 是 一 个 辅助 工具 类 ， 在 NBA 篮球 运动 员 大 数据 分 析 系 统 编写 业务 代码 的 
时 候 会 反复 使 用 BballStatCounter 类 中 的 方法 , 在 BballStatCounter 类 中 涉及 StatCounter 类 的 
创建 。StatCounter 类 具备 统计 级 数 、 平 均 数 和 方差 等 功能 ， 下 面 看 一 下 其 Stats 方法 的 应 用 。 

在 SparkContext 上 下 文中 使 用 parallelize 算 子 ， 将 100.1，200，300 的 数据 集 创 建生 成 



































.594 


第 15 章 Spark 商业 案例 之 NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 案例 








RDD[Double]， 然 后 调用 stats0 方 法 ， 分 别 计算 100.1，200，300 三 个 元 素 的 计数 、 平 均 数 、 
标准 差 、 最 大 值 、 最 小 值 ， 打 印 输出 结果 。 接 着 ， 将 statCounter 合并 加 入 一 个 新 元 素 5000， 
然后 重新 计算 100.1，200，300，5000 四 个 元 素 的 计数 、 平 均 数 、 标 准 差 、 最 大 值 、 最 小 值 ， 
打印 输出 结果 。 


println("stats 方法 调用 : ") 

val doubleRDD: RDD[Double] =sc.parallelize(Seq(100.1,200.0,300.0)) 
val statCounter: StatCounter = doubleRDD.stats() 
println(statCounter.merge (5000)) 

println(statCounter) 


在 IDEA 中 运行 代码 ，Stats 方法 的 应 用 的 输出 结果 如 下 。 


1. stats 方法 调用 : 
2. (count: 3, mean: 200.033333, stdev: 81.608837, max: 300.000000, min: 
100.100000) 


3. (count: 4, mean: 1400.025000, stdev: 2079.647807, max: 5000.000000, min: 
100.100000) 








AODP 


上 述 代码 中 ，doubleRDD 变量 的 类 型 是 RDD[Double]， 但 我 们 查看 RDD 抽象 类 的 源码 ， 
在 RDD 抽象 类 中 是 没有 stats 这 个 方法 的 ，doubleRDD 本 身 不 能 调用 stats 方法 ， 但 在 RDD 
抽象 类 中 定义 了 隐 式 转换 , RDD[Double] 通 过 隐 式 转化 DoubleRDDFunctions 就 可 以 获得 超人 
的 力量 ， 新 增 一 些 函 数 功能 ， 如 stats 方法 。DoubleRDDFunctions 新 功能 使 用 完毕 ， 又 返回 
到 普通 的 RDD[Double]， 超 人 变 回 了 普通 人 。 

隐 式 转化 DoubleRDDFunctions 的 代码 如 下 。 

1. 在 包 org.apache.spark.rdd 的 RDD 抽象 类 中 定义 


2. implicit def doubleRDDToDoubleRDDFunctions (rdd: RDD[Double]): 
DoubleRDDFunctions = { 





人 new DoubleRDDFunctions (rdd) 

4. } 

LT 

6. 在 包 org.apache.spark.rdd 的 DoubleRDDFunctions 类 中 定义 

ya def stats(): StatCounter = self.withScope { 

8= self.mapPartitions (nums => Iterator (StatCounter (nums) ) ) .reduce((a, b) 
=> a.merge (b)) 

9. } 


上 述 的 stats 方法 执行 完毕 以 后 ， 返 回 [[org.apache.spark.util.StatCounter]] 对 象 ， 
StatCounter 位 于 org.apache.spark.util 包 中 ， 用 于 统计 分 析 。 
StatCounter 的 源码 如 下 。 


package org.apache.spark.util 


import org.apache.spark.annotation.Since 


/** 

* StatCounter 用 于 跟踪 一 组 数字 的 统计 (计数 、 均 值 和 方差 ), 可 以 支持 两 个 statcounters 
* 类 的 merge 合并 

* @constructor 根据 传 入 的 参数 初始 化 StatCounter 

A 

class StatCounter (values: TraversableOnce[Double]) extends Serializable { 
0. private var n: Long = 0 // 对 业务 数据 进行 计数 


(Ud 


POO 


es 
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11. private var mu: Double = 0 // 计 算 业 务 数据 的 平均 值 
12. private var m2: Double = 0 // 计 算 (sum of (x - mean)^2) 
13. private var maxValue: Double = Double.NegativeInfinity 


// 计 算 业 务 数据 的 最 大 值 

14. private var minValue: Double = Double.PositiveInfinity 
// 计 算 业 务 数据 的 最 小 值 

Tn 

16., merge (values) 

了 75 


18.  /**StatCounter 构造 器 ， 无 传 入 参数 */ 

19. def this() = this(Nil) 

20. 

21. /** 增 加 一 个 变量 值 到 StatCounter， 更 新 内 部 的 各 统计 值 */ 
2 def merge (value: Double): StatCounter = { 


Pe val delta = value - mu 

24. n+=1 

4 mu += delta / n 

26- m2 += delta * (value - mu) 

ls maxValue = math.max (maxValue, value) 

285 minValue = math.min (minValue, value) 

2 this 

SO 

SE 

32. /** 增 加 多 个 数据 集 到 statcounter， 更 新 内 部 各 统计 值 */ 
33E def merge (values: TraversableOnce[Double]): StatCounter = { 
S45 values.foreach (V => merge(v)) 

三 二 this 

< 

< 了 岳 


38. /** 两 个 Statcounter 进行 合并 ， 增 加 更 新 各 内 部 统计 值 */ 
3 def merge (other: StatCounter): StatCounter = { 


40. if (other == this) { 

41. merge (other.copy()) // 避 免 以 乱 序 获 盖 值 

”1 } else { 

43. if (n == 0) { 

44. mu = other.mu 

5 m2 = other.m2 

46. n = other.n 

CE maxValue = other.maxValue 

48. minValue = other.minValue 

49. } else if (other.n != 0) { 

SO val delta = other.mu - mu 

Se 1 (OLDeren * lO < ny G 

上 mu = mu + (delta * other-n) / (n + other.n) 
Ss } else if (n * 10 < other.n) { 

54. mu = other.mu - (delta * n) / (n + other.n) 
S55 } else { 

565 mu = (mu * n+ other.mu * other.n) / (n+ other.n) 
Sm } 

58. m2 += other.m2 + (delta * delta * n * other.n) / (n + other.n) 
9 n= oFhersn 

60 . maxValue = math.max (maxValue, other.maxValue) 
BL。 minValue = math.min (minValue, other.minValue) 
Zs } 

53 this 

64. } 

65. 让 
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/** 复 制 一 个 StatCounter*/ 

def copy(): StatCounter = { 
Val other = new StatCounter 
other.n = 1n 
other.mu = mu 
other.m2 = m2 
other.maxValue = maxValue 
other.minValue = minValue 
other 


def count: Long = n 


def mean: Double = mu 


def sum: Double n* mu 
def max: Double = maxValue 


def min: Double = minValue 


/** 返 回 值 的 总 体 方差 */ 


def variance: Double = popVariance 


/** 
* 返 回 值 的 总 体 方差 
at 
@Since ("2.1.0") 
def popVariance: Double = { 
if (n == 0) { 
Double.NaN 
} else { 
m2/n 
l 
} 


/冰冰 


* 返 回 样 本 方差 ， 通 过 除 以 N-1 而 不 是 N， 使 用 方差 估 测 来 校正 偏差 
尝 放 


def sampleVariance: Double = { 
i MAD = 
Double.NaN 
} else { 
m2 7 {n= 1) 
} 


/** 返 回 值 的 总 体 标准 差 */ 

def stdev: Double = popStdev 

/** 

* 返 回 值 的 总 体 标准 差 

bt 

@Since("2.1.0") 

def popStdev: Double = math.sqrt (popVariance) 


/** 
* 返 回 值 的 样本 标准 偏差 ， 通 过 除 以 N-1， 而 不 是 N， 修 正 了 预 估 的 偏差 


“01 
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255 */ 

6 def sampleStdev: Double = math.sqgrt (sampleVariance) 

3427- 

328 override def toString: String = {" (count: %d, mean: %f, stdev: $f, 
max: $f, min: $f)".format (count, mean, stdev, max, min) 

329: } 

1430: } 

1313 

2 object StatCounter { 

T1333 /** 从 变量 集合 中 构建 StatCounter*/ 

134. def apply(values: TraversableOnce[Double]): StatCounter = new 
StatCounter (values) 

9 

T1368 /** 列 表 中 的 值 为 可 变 长 度 参 数 ， 传 入 参数 构建 StatCounter*/ 

全 def apply (values: Double*) : StatCounter = new StatCounter (values) 

.363 } 

9 


15.5.2 ”知识 点 : StatCounter 应 用 案例 


本 节 结 合 NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 案例 实现 一 个 StatCounter 应 用 案例 。 

(1) 模拟 定义 一 条 NBA 的 比赛 数据 ， 类 型 为 (Int，Iterable[Array[Double]])， 其 中 第 一 个 
元 素 是 年 份 ， 第 二 个 元 素 是 Iterable 迭代 器 ， 里 面包 括 5 个 Array 数组 ， 每 一 个 数组 中 包括 9 
个 数字 。 在 SparkContext 上 下 文中 使 用 parallelize 算 子 ， 将 定义 的 一 条 NBA 的 比赛 数据 集 创 
建生 成 NBAdata RDD， 其 类 型 为 RDD[(Int, Iterable[Array[Double]])] 。 

(2) 然后 通过 map 转换 ，case (x, y) => (x, y.map(a => a.map((b: Double) => BballStat 
Counter(b))))， 将 NBAdata RDD 转换 为 stats3:RDD[(Int, Iterable[Array[BballStatCounter]])]。 

(3) 循环 遍历 获取 到 BballStatCounter， 调 用 BballStatCounter 的 stats 方法 打印 输出 统计 
分 析 结 果 。 

机 object NBAStatsMytest { 

2 def main (args: Array[Sstring]) { 

SE Logger .getLogger ("org") .setLevel (Level .ERROR) 

4. Var masterUrl] = "local[8]" 

5 var dataPath = "data/NBABasketball" 

6 if (args.length > 0) { 

了 


a masterUrl = args (0) 
加 } else if (args.length > 1) { 


9. dataPath = args (1) 

10. } 

Eh val sparkConf = new SparkConf () .setMaster (masterULr1) .setAppName 
("NBAStatsMytest") 

2 val spark = SparkSession 

Se -builder() 

14. .config(sparkConf) 

A -getOrCreate () 

本 6 org.apache.spark.deploy.SparkHadoopUtil .get.conf.set ("parquet. 
block.size", "new value") 

ds val sc = spark.sparkContext 

se 


“Re 
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19. // 构 建 NBA 测试 数据 


4 1 训 val NBAdata: RDD[ (Int, Iterable[Array[Double]])] = sc.parallelize 
(Seq((1984, Iterable( 
2 Array (-0.06829064516129113, 0.08352774193548394， 0.41606065681950233, 


-0.7778113892745171， 0.027867830846394284, -0.26666016861312614, 
-0.6326720941933309,， 0.6165415556370011，, -0.595782979157253)， 

2 Array (-0.03995129032258082, -0.0023312903225805592, -0.4107265458346371, 
-1.2289977869201123, -0.8065836950655141, -1.4532341246428297， 
-0.6326720941933309, 0.6165415556370011, -1.211374091693702)， 

3 Array (-0.08202483870967833, 0.058750645161290485, 0.41606065681950233, 
-0.7778113892745171， -0.4629860079253165, -0.8599471466279779， 
-0.6326720941933309，0.8489158805579382，-0.4726647566499632)， 

24. Rrray(-0.3832293548387099， -0.19493129032258052， -0.4107265458346371, 
-0.8906079886859158， -1.0520106144513695， -1.2554717986378792， 
-0.6326720941933309, 1.0812902054788756, -1.3191025363875806)，, 

25% Array (0.07404774193548126, 0.393021935483872, 0.41606065681950233, 
0.19975913895760572, -0.2666444724166322, 0.7221514614116271, 
-0.8151170701932682, -1.0100787188095592, 1.2971596918923274) 

26. 下 庆 由 

27. println ("NBA 测试 数据 进行 统计 分 析 测 试 : ") 

之 8 val stats3: RDD[ (Int，Iterable[Array[Bbal1StatCounter]])] = NBAdata. 

map { case (x, y) => (x, y.map(a=>a.map((b: Double) => BballStatCounter 
(b)))) } 


9 stats3.take (1) .foreach(x => { 

305 val myX2: Iterable [Array[Bbal1StatCounter]] = x. 2 

< 人吉 for (i <- 1 to myX2.size) { 

二 val myX2size: Arrayl[Array[BballStatCounter]] = myX2 .toRArray 
号 号 val myNext: RARrray[Bbal1StatCounter] = myX2size(i - 1) 
3 for (j <- 1 to myNext.size) { 

35. println ("第 " + i +" 个 元 素 第 "+ j + "个 数字 统计 : " + myNext (j - 1) .stats) 
36. } 

TE } 

385 }) 

记忆 class BballStatCounter extends Serializable { 

40 . val stats: StatCounter = new StatCounter () 

41. var missing: Long = 0 

42. 

区 全 def add(x: Double): BballstatCounter = { 

44. if (x.isNaN) { 

45. missing += 1 

46. } else { 

了 stats.merge (x) 

48. } 

49. this 

113 1 

< 于 

与 2 def merge (other: BballStatCounter): BballstatCounter = { 
Se stats.merge (other.stats) 

SE 多 missing += other.missing 

二 this 

Ss } 

Se 

8 def printStats (delim: String) : String = { 


“0s 
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595 stats.count + delim + stats.mean + delim + stats.stdev + delim + 
stats.max + delim + stats.min 

60 . } 

6 override def toString: String = { 

62. "NBA stats: " + stats-toString + " NBA NaN: " + missing 

63- } 

4 } 

65. object BballstatCounter extends Serializable { 

66 . def apply(x: Double) = new BballStatCounter () -add (x) 

| A 


在 IDEA 中 运行 代码 ，StatCounter 应 用 案例 循环 遍历 调用 BballStatCounter 的 stats 方法 
的 输出 结果 如 下 。 


1. ”NBA 测试 数据 进行 统计 分 析 测 试 : 

2. 第 1 个 元 素 第 1 个 数字 统计 : (count: 1, mean: -0.068291, stdev: 0.000000, max: 
-0.068291, min: -0.068291) 

3. 第 1 个 元 素 第 2 个 数字 统计 : (count: 1, mean: 0.083528, stdev: 0.000000, max: 
0.083528，min: 0.083528) 

4. 第 1 个 元 素 第 3 个 数字 统计 : (count: 1, mean: 0.416061, stdev: 0.000000, max: 
0.416061，min: 0.416061) 

5. 第 1 个 元 素 第 4 个 数字 统计 : (count: 1, mean: -0.777811，stdev: 0.000000, max: 
-0.777811, min: =0-777811) 

6. 第 1 个 元 素 第 5 个 数字 统计 : (count: 1, mean: 0.027868, stdev: 0.000000, max: 
0.027868，min: 0.027868) 

7. 第 1 个 元 素 第 6 个 数字 统计 : (count: 1, mean: -0.266660，stdev: 0.000000, max: 
-0.266660, min: -0.266660) 

8. 第 1 个 元 素 第 7 个 数字 统计 : (count: 1, mean: -0.632672, stdev: 0.000000, max: 
-0.632672，min: -0.632672) 

9. 第 1 个 元 素 第 8 个 数字 统计 : (count: 1，mean: 0.616542, stdev: 0.000000, max: 
0.616542，min: 0.616542) 


0. 第 1 个 元 素 第 9 个 数字 统计 : (count: 1, mean: -0.595783，stdev: 0.000000, max: 
-0.595783, min: -0.595783) 


1. 第 2 个 元 素 第 1 个 数字 统计 : (count: 1, mean: -0.039951, stdev: 0.000000, max: 
-0.039951, min: -0.039951) 

2. 第 2 个 元 素 第 2 个 数字 统计 : (count: 1, mean: -0.002331, stdev: 0.000000, max: 
-0.002331, min: -0.002331) 

3. 第 2 个 元 素 第 3 个 数字 统计 : (count: 1, mean: -0.410727, stdev: 0.000000, max: 
-0.410727，min: -0.410727) 

4. 第 2 个 元 素 第 4 个 数字 统计 : (count: 1, mean: -1.228998，stdev: 0.000000, max: 
-1.228998，min: -1.228998) 

5. 第 2 个 元 素 第 5 个 数字 统计 : (count: 1, mean: -0.806584, stdev: 0.000000, max: 
-0.806584, min: -0.806584) 

6. 第 2 个 元 素 第 6 个 数字 统计 : (count: 1, mean: -1.453234, stdev: 0.000000, max: 
-1.453234, min: -1.453234) 

17. 第 2 个 元 素 第 7 个 数字 统计 : (count: 1, mean: -0.632672, stdev: 0.000000, max: 
080326127 min 0.032672) 

18. 第 2 个 元 素 第 8 个 数字 统计 : (count: 1, mean: 0.616542, stdev: 0.000000, max: 

0.616542, min: 0.616542) 


19. 第 2 个 元 素 第 9 个 数字 统计 : (count: 1, mean: -1.211374, stdev: 0.000000, max: 
= 211374. mins = 21137A 
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15.6 本 章 总 结 


本 章 详细 阐述 了 Spark 商业 案例 之 NBA 篮球 运动 员 大 数据 分 析 系 统 应 用 案例 的 实战 实 
现 。NBA 篮球 运动 员 大 数据 分 析 系 统 综合 NBA 球员 的 多 个 分 析 维 度 ， 基 于 NBA 球员 历史 
数据 1970 年 至 2017 年 的 各 种 表现 ， 全 方位 分 析 球 员 的 技能 ， 统 计 分 析 NBA 球员 的 方差 、 
均值 、 最 大 值 、 最 小 值 、 出 现 次 数 等 统计 值 。 案 例 中 综合 应 用 Spark 缓存 、 广 播 变 量 、 并 行 
度 等 优化 技巧 来 提升 并 行 计算 效率 。 通 过 对 NBA 篮球 运动 员 大 数据 分 析 系统 的 深入 掌握 ， 
读者 在 生产 环境 中 对 于 业务 系统 的 复杂 需求 ， 借 鉴 NBA 球员 系统 的 实现 思路 触 类 旁 通 ， 可 
简单 、 灵 活 地 应 对 业务 的 变化 。 
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本 章 详细 阐 述 电 商 广告 点 击 综合 案例 需求 分 析 和 技术 架构 、 在 线 点 击 统计 实战 、 黑 名 单 
过 滤 实 现 、 底 层 数据 层 的 建 模 和 编码 实现 〈 基 于 MySQL) 、 从 数据 库 中 获取 黑 名 单 封装 成 
RDD 及 过 滤 、 动 态 黑 名 单 基 于 数据 库 MySQL 的 操作 、 通 过 updateStateByKey 等 实现 广告 点 
击 流量 的 在 线 更 新 统计 、 实 现 每 个 省 份 点 击 排名 Top5、 实 现 广告 点 击 Trend 趋势 计算 、 模 拟 
点 击 数据 的 生成 和 数据 表 SQL 的 建立 , 最 终 运行 整个 电 商 广告 点 击 综合 案例 , 计算 出 运行 结 
果 。 同 时 ， 本 章 还 提供 了 电 商 广告 点 击 综合 案例 的 业务 源码 及 代码 关注 点 。 


16.1 电 商 广告 点 击 综合 案例 需求 分 析 和 技术 架构 


在 大 数据 流 处 理 时 代 ，Spark Streaming 有 强大 的 吸引 力 ， 而 且 Spark Streaming 发 展 前 景 
广阔 , 在 Hadoop 大 数据 生态 系统 中 , Hadoop 是 大 数据 分 布 式 存储 系统 , Spark 将 取代 Hadoop 
Map Reduce 成 为 事实 上 的 大 数据 分 布 式 计算 框架 。Spark 分 布 式 系统 的 生态 系统 也 非常 丰 
富 , Spark Streaming 可 以 方便 地 调用 其 他 基于 Spark Core 上 的 Spark SQL、 Spark Mllib、Spark 
Graph 等 强大 的 子 框架 。 因 此 ， 大 数据 流 处 理 时 代 Spark Streaming 必 将 一 统 天 下 。 

Kafka 是 分 布 式 发 布 -订阅 消息 系统 ， 与 传统 消息 系统 相 比 ，Kafka 是 分 布 式 系统 ， 易 于 
扩展 节点 。Kafka 在 内 核 空间 处 理 消 息 数据 ， 为 分 布 式 发 布 和 订阅 消息 提供 高 吞吐 量 。Kafka 
将 消息 存储 到 磁盘 ， 消 息 在 磁盘 上 可 以 持久 化 ， 可 以 重复 消费 ，Kafka 是 实时 的 动态 数据 来 
源 ，Spark Streaming 可 以 维护 消息 的 状态 ;Kafka 能 动态 增 减 节点 ， 节 点 信息 被 Zookeeper 
在 电 商 广告 点 击 大 数据 实时 流 处 理 系统 中 ， 我 们 综合 应 用 Spark Streaming+Kafka+Spark 
SQL+TopN+MySQL 大 数据 处 理 技术 ， 从 系统 架构 、 整 体 部 署 、 系 统 软件 设计 、 核 心 代码 、 
系统 运行 等 方面 全 面 、 深 入 阐述 电 商 广告 点 击 系统 的 设计 及 实现 。 


16.1.1 电 商 广告 点 击 综合 案例 需求 分 析 





电 商 广告 点 击 综合 案例 可 以 淘宝 、 京 东 网 站 为 案例 。 以 京东 网 站 为 例 ， 用 户 登 录 京 东 网 
站 (图 16-1) ， 点 击 广告 立即 购买 ， 广 告 点 击 系 统 就 会 记录 用 户 的 广告 点 击 信息 。 广 告 点 击 
系统 是 整个 电 商 系统 的 一 部 分 ， 电 商 系统 包括 用 户 行为 分 析 ， 页 面 浏览 率 、 跳 转 率 ， 用 户 登 
录 信 息 ， 什 么 商户 比较 受 欢迎 ， 用 户 广告 点 击 信息 ， 个 性 化 推荐 系统 等 内 容 〈 推 荐 系统 与 机 
器 学 习 、 图 计算 相关 ) 。 
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图 16-1 京东 网 站 广告 点 击 示意 图 


广告 点 击 系统 实时 分 析 的 意义 : 因为 可 以 在 线 实时 地 看 见 广 告 的 投放 效果 ， 所 以 为 广告 
的 更 大 规模 地 投入 和 调整 打下 了 坚实 的 基础 ， 从 而 为 公司 带 来 最 大 化 的 经 济 回 报 。 

电 商 广告 点 击 综 合 案 例 的 核心 需求 : 

(1) 实时 黑 名 单 动态 过 滤 出 有 效 的 用 户 广告 点 击 行为 ;因为 黑 名 单 用 户 可 能 随时 出 现 ， 
所 以 需要 动态 更 新 。 

(2) 在 线 计算 广告 点 击 流量 

(3) Top3 热门 广告 。 

(4) 每 个 广告 的 流量 趋势 。 

(5) 广告 点 击 用 户 的 区 域 分 布 分 析 。 

(6) 最 近 一 分 钟 的 广告 点 击 量 。 

(7) 整个 广告 需 7X24 小 时 运行 。 


16.1.2 ” 电 商 广告 点 击 综合 案例 技术 架构 


电 商 广告 点 击 综合 案例 在 线 实 时 处 理 技 术 架 构 : 

(1) 电 商 广告 点 击 综合 案例 数据 来 源 。 电 商 广告 点 击 综合 案 例 的 数据 来 源 有 多 个 渠道 : 
如 网 站 、App、 设 备 等 ， 互 联网 等 以 京东 网 站 为 例 ， 京 东 网 站 进行 广告 的 推送 ， 当 用 户 点 击 
广告 的 时 候 ， 肯 定 有 上 日志 Log 发 送 到 服务 器 Server， 或 者 当 用 户 使 用 Android、iOS 等 中 的 
App 的 时 候 ， 京 东 网 站 系统 都 会 设置 用 户 数据 记录 的 关键 点 〈 埋 点 ) 。 如 果 是 网 站 ， 经 典 的 
方式 是 通过 JS (JavaScript) 及 Ajax (Asynchronows JavaScript And XML， 异 步 JavaScript 和 
XML) 把 日 志 传 回 到 服务 器 上 ， 如 果 是 移动 App， 一 般 是 通过 Socket， 其 他 的 传感器 或 者 工 
业 设 备 可 以 通过 自己 的 通信 协议 把 数据 传 回 到 服务 器 端 。 

(2) 为 了 应 对 高 并 发 访问 , 电 商 广告 点 击 系统 一 般 采 用 Nginx 等 作为 服务 器 Server 前 端 ， 
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通过 服务 器 Server 的 分 布 式 集群 做 负载 均衡 。Web 服务 器 在 生产 环境 中 可 以 使 用 Tomcat、 
Apache 等 第 三 方 服务 器 。 

(3) 企业 中 可 使 用 Crontab 等 定时 工具 通过 日 志 整 理工 具 把 当天 的 日 志 采 集 、 合 并 和 初 
步 的 处 理性 能 生成 一 份 日 志文 件 ， 然 后 将 日 志文 件 发 送 到 Flume 监控 目录 中 。 当 Flume 发 现 
有 新 的 日 志文 件 进来 时 ， 会 按照 配置 把 数据 通过 通道 Channel 传递 Sink 到 目的 地 ， 这 里 是 传 
送 Sink 到 Kafka 集群 中 。 

(4) Kafka 集群 中 的 数据 被 消费 。Spark Streaming 主动 从 Kafka 集群 抓 到 数据 在 线 进行 
处 理 〈 处 理 过 程 中 可 能 使 用 机 器 学 习 和 图 计算 等 非常 复杂 的 算法 和 功能 ) 。 例 如 ， 在 线 广告 
推荐 ， 这 个 时 候 就 需要 结合 机 器 学 习 ML 来 实现 。Spark Streaming 处 理 后 的 数据 可 以 存储 到 
Kafka， 供 Kafka 上 的 应 用 系统 再 次 进行 数据 处 理 。 

(5) 对 于 Spark Streaming 集群 ， 可 以 使 用 Ganglia 来 监控 Spark 分 布 式 集群 节点 的 系统 
性 能 ， 如 CPU、 内存、 硬盘 利 用 率 ，IO 负载 、 网 络 流量 情况 等 ， 统 计 展 示 每 个 节点 的 工作 
状态 ， 对 合理 调整 、 分 配 系统 资源 ， 提 高 系统 整体 性 能 起 到 重要 作用 。 

(6) Spark Streaming 在 线 处 理 的 数据 持久 化 到 DB/Redis 数据 库 中 。 实 际 生产 环境 下 , 在 
大 项 目 中 使 用 Redis 比较 多 ， 因 为 QPS 可 以 非常 高 ， 尤 其 是 在 并 发 和 实时 要 求 比较 高 的 场景 
特别 有 用 。 

(7) 数据 持久 化 到 DB/Redis 数据 库 中 后 ， 数 据 的 展示 可 通过 JDBC 接口 用 Java 企业 级 
组 件 获取 数据 库 DB 数据 并 通过 报表 展示 ， 提 供 营销 、 运 营 、 产 品 研 发 改进 等 。 

电 商 广告 点 击 综合 案例 离线 批 处 理 技术 架构 : 

(1) 企业 中 可 使 用 Crontab 等 定时 工具 通过 日 志 整 理工 具 把 当天 的 日 志 采 集 、 合 并 和 初 
步 的 处 理性 能 生成 一 份 日 志文 件 ， 然 后 将 日 志文 件 发 送 到 Flume 监控 目录 中 。 当 Flume 发 现 
有 新 的 日 志文 件 进来 时 ， 将 日 志文 件 传递 到 Hadoop HDFS 系统 。 

(2) 在 HDFS 生产 系统 中 : @ 使 用 MapReduce 作业 对 数据 进行 初步 清洗 ， 并 写 入 新 的 
HDFS 文件 中 ; @ 清洗 后 的 数据 一 般 导 入 到 Hive 数据 仓库 中 ， 在 Hive 中 可 以 采用 分 区 表 ; 
@ 通过 Hive 中 的 SQL 语句 在 数据 仓库 的 基础 上 进行 数据 清洗 ETL， 此 时 数据 清洗 ETL 会 
把 原始 的 数据 生成 很 多 张 目标 表 Table。 

(3) Spark 对 HDFS 中 的 批量 数据 进行 离线 处 理 。 市 场 营 销 人 员 、 管 理 运营 人 员 、 决 策 
人 员 、 产 品 研发 人 员 会 将 分 析 后 的 结果 用 于 提升 营业 额 、 利 润 和 市 场 占有 率 。 

商 广 告 点 击 综合 案例 整体 技术 架构 图 如 图 16-2 所 示 。 
商 广 告 点 击 综合 案例 实现 的 技术 细节 : 
数据 格式 : 时间、 用 户 、 广 告 、 地 点 等 。 
在 线 计 算 用 户 点 击 的 次 数 分 析 、 屏 蔽 卫 等 。 
使 用 updateStateByKey 或 者 mapWithState 进行 不 同 地 区 广告 点 击 排名 的 计算 。 
Spark Streaming+Spark SQL+Spark Core 等 综合 分 析 数 据 。 
使 用 Window 类 型 的 操作 。 
高 可 用 和 性 能 调 优 。 
流量 趋势 一 般 会 结合 DB 等 。 
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当 用 户 点 击 广告 的 时 候 ， 一 般 都 
会 通过 JavaScript、 A 数据 ， 这 中 这 中 我 们 要 其 j:Spark Streaming 做 
实时 在 线 统计 ， 那 么 数据 就 天 要 放 进 消息 (Kafka》 中 ， 我 们 的 Spark Streaming 访 用 程序 就 会 太 

Kafka 中 pull 数 据 过 米 进行 计算 和 消费 ， 并 把 计算 后 的 数据 放 到 持久 化 系统 中 MySQL)》 


告 点 市 系统 实时 分 析 的 地 看 见 上 告 的 投放 效果 ， 这 样 就 为 告 的 更 
吕 天 规 税 的 投入 和 调 吝 打下 了 了 下 和 的 生 他 、 从 而 为 公司 带 来 最 大 化 的 经 济 回报 
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| 运营 人 员 、 决策 人 员 、 
| 庆 贞 研发 人 员 会 根据 

分 伍 后 的 结 呆 用 于 更 
有 营业 疾 、 利润 和 市 场 
占有 率 


在 企业 大 数据 生产 环境 下 的 4 个 核心 技术 : kafka 、hafs 、spark 、redis 
如 果 说 有 五 大 核心 技术 的 话 ， 那 应 该 是 kafka 、hafs 、spark 、redis、tachyon 











图 16-2 ” 电 商 广告 点 击 综合 案例 整体 技术 架构 图 


在 电 商 广告 点 击 大 数据 实时 流 处 理 系统 中 ， 我 们 将 Kafka 作为 电 商 广告 点 击 大 数据 实时 
流 处 理 系统 的 动态 数据 源 , 采 用 MockAdClickedStats 脚本 生产 模拟 的 电 商 广告 点 击 数据 消息 ， 
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循环 不 断 地 将 数据 消息 发 送 到 Kafka 系统 ， 然 后 使 用 Spark Streaming 主动 从 Kafka 抓 到 数据 
进行 实时 在 线 处 理 ， 处 理 完成 以 后 将 用 户 点 击 广告 的 实时 流 处 理 消 息 持久 化 到 MySQL 数据 
库 中 ， 后 期 提供 给 Java EE 进行 Web 的 展示 。 

Spark Streaming 直接 读 取 Kafka 的 offset， 通 过 KafkaCluster setConsumerOffsets 将 offset 
等 信息 更 新 到 Zookeeper, 通过 第 三 方 监控 工具 KafkaOffsetMonitor 实时 监控 Kafka 消息 的 生 
产 和 消息 信息 。 电 商 广 告 点 击 系统 实现 如 图 16-3 所 示 。 
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图 16-3 电 商 广告 点 击 系统 实现 


在 电 商 广告 点 击 大 数据 实时 流 处 理 系统 中 ， 主 要 实现 以 下 功能 : 

(1) Kafka 的 offset 信息 同步 更 新 到 Zookeeper。 

(2) 在 线 黑 名 单 过 滤 。 

(3) 计算 每 个 Batch Duration 中 每 个 User 的 广告 点 击 量 。 

(4) 判断 用 户 点 击 是 否 属于 黑 名 单 点 击 。 

(5) 广告 点 击 累计 动态 更 新 。 

(6) 对 广告 点 击 进行 TopN 的 计算 ， 计 算出 每 天 每 个 省 份 的 Top5 排名 的 广告 。 

(7) 计算 过 去 半 个 小 时 内 广告 点 击 的 趋势 。 

在 电 商 广告 点 击 大 数据 实时 流 处 理 系 统 中 ， 电 商 广告 点 击 综 合 案例 的 业务 代码 与 Spark 
框架 的 交互 代码 的 实现 包括 两 方面 : 

(1) Spark Streaming 在 线 流 处 理 上 下 文 的 初始 化 。 

(2) Spark Streaming 执行 引擎 的 运行 ，Spark Driver 的 启动 。 


16.1.3 ” 电 商 广告 点 击 综合 案例 整体 部 署 








在 服务 器 设备 上 搭建 部 署 1 个 Master、8 个 Worker 的 Spark 分 布 式 集群 , Hadoop 集群 、 
Spark 集群 运行 在 9 个 虚拟 机 设备 节点 上 ; 因为 Kafka 集群 的 节点 信息 被 Zookeeper 管理 ， 因 
此 在 Master、Workerl1、Worker2 这 3 个 节点 上 同时 部 署 Zookeeper、Kakfa 集群 ， 为 综合 
用 Spark SQL 等 技术 ， 在 Master 节点 上 单机 部 署 了 Hive 及 MySQL 系统 ，Hive 的 作用 是 存 
放 Spark SQL 的 源 数据 信息 ， 在 Spark Streaming 运行 前 必须 在 后 台 先 启动 Hive metastore 服 
务 ，MySQL 数据 库 的 作用 是 持久 化 保存 Spark Streaming 的 运行 结果 ; 在 Master 节点 上 也 安 
装 部 署 了 Eclipse 集成 开发 环境 。Eclipse 的 作用 是 在 Master 虚拟 机 本 地 调试 Spark Streaming 














避 
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代码 ， 快 速 测试 ， 定 位 代码 Bug。 

脚本 代码 部 署 : AdClickedStreamingStats.sh 脚本 在 Master 节点 上 运行 ， 通 过 运行 
spark-submit 向 Spark 集群 提交 应 用 ; 为 减轻 Master 系统 运行 负荷 , 将 MockAdClickedStats.sh 
脚本 部 署 在 Workerl 节点 上 运行 , 源源 不 断 地 向 Spark 集群 发 送 数 据 ; 同时 , 为 了 监控 Kafka 
集群 生产 者 、 消 费 者 的 实时 数据 消费 情况 ， 还 部 署 了 KafkaOffsetMonitor 进行 监控 。 

电 商 广告 点 击 系统 整体 部 署 如 图 16-4 所 示 。 






























































节点 
Master 192, 168. 189, 1 |Hadoop, Spark | ookeeper. Kakfa, Hive. MySQL, Eclipse 
[Worker! 192. 168. 189. 2 |Hadoop、Spark |Zookecper、 Kt 入 MockAdclickedstats | 
(Worker? 192. 168. 189. 3 |Hadoop、 Spark |Zookeeper. Kakfa KafkaOffsethonitor | 
整体 部 署 worker3 192. 168. 189.4 |Hadoop、Spark | hdclicked 
(Workers 192. 168. 189.5 |Hadoop、 Spark | Streaningstats 
[Workers 192. 168, 189. 6 |Hadoop、Spark | 
[Worker6, 192. 168. 189. 7 |Hadoop、 Spark | 
Worker7 192, 168.183.8 |Hadoop、 S, | 
orkers 192. 168.189.9 |Hadoop、 Spark | 





adclicked 表 的 字段 : tinestanp、ip、 userID、adID, provinee, city、 clickedcount 
MysQl 数据 ladclickedtrend| 泰 的 字段 : date、hour、 ainute、adID、clickedcount 
库 表 adprovincetopn| 表 的 字段 Cr adID、province，clickedCount 
blacklisttable| 表 的 字 
adclickedcount| 表 的 寺 耻 + PT adID、province、city、clickedcount 
|spark 初 始 化 
在 线 黑 名 单 过 滤 
计算 每 个 Batch_Duration 中 每 个 User 的 广告 点 击 量 
业务 流程 判断 用 户 点 击 是 否 属于 黑 名 单 点 击 
广告 点 击 累 计 动 态 更 新 
对 广告 点 击 进行 TopH 的 计算 ， 计 算出 每 天 每 个 省 份 的 Top5 排 名 的 广告 
计算 过 去 半 个 小 时 内 广告 点 击 的 趋势 
Spark Streaning 执 行 引擎 Driver 开 始 运行 















































图 16-4 电 商 广告 点 击 系统 整体 部 署 


16.1.4 生产 数据 业务 流程 及 消费 数据 业务 流程 


电 商 广告 点 击 大 数据 实时 流 处 理 系统 案例 系统 整体 上 分 成 生产 数据 、 消 费 数据 两 部 分 。 

(1) 生产 数据 业务 流程 :编写 MockAdClickStatus 的 代码 向 Kafka 集群 发 送 数据 。 

(2) 消费 数据 业务 流程 : 编写 Spark Streaming AdClickedStreamingStats 的 代码 从 Kafka 
集群 中 抓 取 数 据 ， 将 Spark 实时 处 理 的 数据 持久 化 到 数据 库 中 。 


16.1.5 Spark JavaStreamingContext 初始 化 及 启动 


电 商 广告 点 击 综合 案例 的 业务 代码 在 Spark 集群 分 布 式 集群 中 运行 ， 我 们 首先 要 编写 
Spark Driver 应 用 程序 的 代码 。 

口 Spark Streaming 在 线 流 处 理 上 下 文 的 初始 化 。 

口 Spark Streaming 执行 引擎 的 运行 ，Spark Driver 的 启动 。 


1. Spark Streaming 在 线 流 处 理 上 下 文 的 初始 化 具体 实现 


第 一 步 : 配置 SparkConf。 
(1) Spark Streaming 运行 至 少 需要 两 条 线程 : 因为 Spark Streaming 应 用 程序 在 运行 的 时 
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候 , 至 少 有 一 条 线程 用 于 不 断 地 循环 接收 数据 , 并 且 至 少 有 一 条 线程 用 于 处 理 接收 的 数据 ( 否 
则 无 法 有 线程 用 于 处 理 数 据 ， 随 着 时 间 的 推移 ， 内 存 和 磁盘 都 会 不 堪 重 负 ) 。 

(2) 对 于 集群 而 言 , 每 个 Executor 一 般 肯 定 不 止 一 个 Thread, 那 对 于 处 理 Spark Streaming 
的 应 用 程序 而 言 , 每 个 Executor 一 般 分 配 多 少 个 Core 比较 合适 ? 根据 经 验 , 5 个 左右 的 Core 
是 最 佳 的 (一 般 分 配 为 奇数 个 Core 表现 最 佳 ， 如 3 个 、5 个 、7 个 Core 等 ) 。 


3 SparkConf conf = new SparkConf () .setMaster ("spark://192. 
SEE a 


.SetAppName ("114-AdClickedStreamingStats"); 


第 二 步 : 创建 SparkStreamingContext。 

(1) SparkStreamingContext 是 Spark Streaming 应 用 程序 所 有 功能 的 起 始点 和 程序 调度 的 
核心 。 SparkStreamingContext 的 构建 可 以 基于 SparkConf 参数 ， 也 可 基于 持久 化 的 
SparkStreamingContext 的 内 容 来 恢复 (典型 的 场景 是 Driver 崩溃 后 重新 启动 ， 由 于 
Spark Streaming 具有 连续 7X24 小 时 不 间断 运行 的 特征 ， 所 以 需要 在 Driver 重新 启动 后 继续 
上 一 次 的 状态 ， 此 时 的 状态 恢复 需要 基于 曾经 的 checkpoint) 。 

(2) 在 一 个 Spark Streaming 应 用 程序 中 可 以 创建 若干 个 SparkStreamingContext 对 象 ， 使 
用 下 一 个 SparkStreamingContext 之 前 需要 把 前 面 正 在 运行 的 SparkStreamingContext 对 象 关 
闭 掉 ， 由 此 ， 我 们 获得 一 个 重大 的 启发 :Spark Streaming 框架 也 只 是 Spark Core 上 的 一 个 应 
用 程序 而 已 ,只 不 过 Spark Streaming 框架 箱 运行 的 话 需要 Spark 工程 师 写 业务 逻辑 处 理 代码 。 


人 JavaStreamingContext jsc = new JavaStreamingContext (conf, Durations. 
seconds (10)); 
和 25 jsc.checkpoint ("/usr/local/IMF testdata/IMFcheckpoint114"); 


第 三 步 : 创建 Spark Streaming 输入 数据 来 源 input Stream。 

(1) 数据 输入 来 源 可 以 基于 File、HDFS、Flume、Kafka、Socket 等 。 

(2) Spark Streaming 可 以 指定 数据 来 源 于 网 络 Socket 端口 ，Spark Streaming 连接 上 该 端 
口 并 在 运行 的 时 候 ， 一 直 监 听 该 端口 的 数据 (当然 ， 该 端口 服务 首先 必须 存在 ) ， 并 且 在 后 
续 会 根据 业务 需要 不 断 地 有 数据 产生 (当然 ， 对 于 Spark Streaming 应 用 程序 的 运行 而 言 ， 有 
无 数据 其 处 理 流程 都 是 一 样 的 ) 。 电 商 广 告 点 击 综合 案例 中 ，Spark Streaming 指定 数据 来 源 
是 Kafka 集群 中 的 数据 。 

(3) 如 果 经 常 在 每 间隔 5s 没有 数据 的 话 就 不 断 地 启动 空 的 Job， 其 实 会 造成 调度 资源 的 
浪费 ， 因 为 并 没有 数据 需要 发 生计 算 ， 所 以 实际 的 企业 级 生成 环境 的 代码 在 具体 提交 Job 前 
会 判断 是 否 有 数据 ， 如 果 没 有 ， 就 不 再 提交 Job。 

(4) 在 电 商 广告 点 击 综合 案例 中 ，Spark Streaming 连接 Kafka 集群 的 KafkaUtils 工具 类 
调用 createDirectStream 方法 的 具体 参数 的 含义 如 下 。 

第 一 个 参数 是 StreamingContext 实例 。 

第 二 个 参数 是 keyClass，Kafka 记录 的 Key 值 的 类 型 。 

第 三 个 参数 是 valueClass，Kafka 记录 的 Value 值 的 类 型 。 

第 四 个 参数 是 keyDecoderClass，Key 值 的 解码 器 类 型 。 

第 五 个 参数 是 valueDecoderClass，Value 值 的 解码 器 类 型 。 

第 六 个 参数 是 kafkaParams，Kafka 集群 的 参数 配置 信息 ， 要 求 使 用 metadata.broker .list 
或 者 bootstrap.servers 来 配置 Kafka 集群 的 分 布 式 节点 信息 ， 格 式 规范 为 hostl:portl, 


* 608°* 
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host2:port2。 如 果 不 是 从 检查 点 开始 ， 可 以 设置 auto.offset.reset 为 最 大 值 largest 或 者 最 小 值 
smallest〈 默 认 是 最 大 值 ) ， 确 定 流 处 理 开始 处 理 数据 的 位 置 。 





sy /** 
* 创建 Kafka 元 数据 ， 让 Spark Streaming 这 个 Kafka Consumer 利用 

2 */ 

33 

- Map<String, String> kafkaParameters = new HashMap<String, String>(); 

5 kafkaParameters.put ("metadata.broker.list", "Master:9092,Workerl: 
9092,Worker2:9092"); 

6. 

ER Set<String> topics = new HashSet<string>(); 

8. topics.add("AdClicked"); 

9 

10. JavaPairInputDStream<String, String> adClickedSstreaming = KafkaUtils. 


createDirectSstream(jsc, String.class, String.class, StringDecoder. 
class, StringDecoder.class,KkafkaParameters, topics); 


第 四 步 : 接 下 来 就 像 对 于 RDD 编程 一 样 基于 DStream 进行 编程 ! 原 因 是 DStream 是 RDD 
产生 的 模板 (或 者 说 类 ) ， 在 Spark Streaming 具体 发 生计 算 前 ， 其 实质 是 把 每 个 Batch 的 
DStream 的 操作 翻译 成 为 对 RDD 的 操作 ! 对 初始 的 DStream 进行 Transformation 级 别 的 处 理 ， 
如 map、filter 等 高 阶 函数 等 的 编程 ， 来 进行 具体 的 数据 计算 。 这 里 进行 电 商 广告 点 击 综合 案 
例 的 一 系列 业务 代码 的 实现 ， 在 线 黑 名 单 过 滤 、 计 算 每 个 Batch Duration 中 每 个 User 的 广告 
点 击 量 、 判断 用 户 点 击 是 否 属于 黑 名 单 点 击 、 广告 点 击 累计 动态 更 新 、 对 广告 点 击 进行 TopN 
的 计算 ， 计 算出 每 天 每 个 省 份 的 Tops 排名 的 广告 、 计 算 过 去 半 个 小 时 内 广告 点 击 的 趋势 。 


2. Spark Streaming 执 行 引擎 的 运行 ，Spark Driver 的 启动 


Spark Streaming 执行 引擎 也 就 是 Driver 开始 运行 ，Driver 启动 的 时 候 是 位 于 一 条 新 的 线 
旦 中 的 ， 当 然 ， 其 内 部 有 消息 循环 体 ， 用 于 接收 应 用 程序 本 身 或 者 Executor 中 的 消息 。 


ks jsc.start (); 
> jsc.awaitTermination(); 
3 jsc.close(); 


16.1.6 Spark Streaming 使 用 No Receivers 方式 读 取 Kafka 数据 及 监控 


Spark Streaming 读 取 Kafka 数据 支持 有 两 种 方式 : Receiver 方式 和 No Receivers 方式 。 

(1) Receiver 方式 : Spark Streaming kafkautil 使 用 createStream 方法 。 

(2) No Receivers 方式 : Spark Streaming kafkautil 使 用 createDirectStream 方法 。 

目前 ，No Receivers 方式 在 企业 中 使 用 得 越 来 越 多 ， 具 有 更 强 的 自由 度 控制 、 语 义 一 臻 
性 。No Receivers 方式 更 符合 数据 读 取 和 数据 操作 ， 是 我 们 操作 数据 来 源 的 自然 方式 。 

下 面 No Receivers 方式 直接 抓 取 Kafka 数据 带 来 的 好 处 。 

好 处 一 : 

No Receivers 方式 直接 抓 取 Kafka 的 数据 ， 没 有 缓存 ， 不 会 出 现 内 存 溢出 的 问题 。 如 果 
使 用 kafka Receiver 方式 读 取 数据 ， 会 存在 缓存 的 问题 ， 需 要 设置 kafka Receiver 读 取 的 频率 
和 block interval 等 信息 。 
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好 处 二 : 
如 果 采 用 Receivers 方式 ，Receivers 默认 情况 需要 和 Worker 的 Executor 绑 定 ， 不 方便 做 
分 布 式 .如 果 采 用 No Receivers direct 方 式 ,默认 情况 下 数据 会 存在 多 个 Worker 上 的 Executor， 
数据 天 然 就 是 分 布 式 的， 默认 分 布 在 多 个 Executor 上 。 而 Receivers 方式 就 不 方便 计算 。 
好 处 三 ; 
数据 消费 的 问题 , 在 实际 操作 的 时 候 采 用 Receivers 的 方式 有 一 个 弊端 ,消费 数据 来 不 及 
处 理 ， 如 果 延 迟 多 次 ，Spark Streaming 程序 就 有 可 能 崩溃 。 但 如 果 是 采用 No Receivers direct 
方式 访问 Kafka 数据 , 就 不 会 存在 此 问题 ,因为 No Receivers direct 方式 直接 读 取 Kafka 数据 ， 
如 果 数 据 有 延迟 delay， 那 就 不 进行 下 一 个 处 理 ， 因 此 ，No Receivers direct 方式 就 不 会 存在 
来 不 及 消费 、 程 序 崩 溃 的 问题 。 
好 处 四 : 
No Receivers direct 方式 实现 完全 的 语义 一 致 性 ， 不 会 重复 消费 数据 ， 而 且 保证 数据 一 定 
被 消费 。No Receivers direct 方式 与 kafka 进行 交互 ， 只 有 数据 真正 执行 成 功 后 才 会 记录 下 来 。 
因此 , 在 生产 环境 中 强烈 建议 大 家 采用 No Receivers direct 的 方式 。 本 章 电 商 广告 点 击 综 
合 案例 采用 No Receivers direct 方式 开发 Spark Streaming 应 用 程序 。 


有 JavaPairInputDStream<String，String> adClickedStreaming = KafkaUtils. 
createDirectStream(jsc, String.class,String.class, StringDecoder. 
class, StringDecoder.class,kKkafkaParameters, topics); 








下 面 是 createDirectStream 的 源码 。 


/** 
* 创建 输入 流 input stream 直接 从 Kafka 集群 节点 拉 取 消息 


* @param jssc JavaStreamingContext object 
* @param keyClass Class of the keys in the Kafka records 
* @param ValueClass Class of the values in the Kafka records 
* @param keyDecoderClass Class of the key decoder 
* @param valueDecoderClass Class type of the value decoder 
* Q@param kafkaParams Kafka <a href="http://kafka.apache.org/documentation. 
* html#configuration"> 
* configuration parameters</a>. Requires "metadata.broker.list" or 
* "bootstrap.servers" 
pa * to be set with Kafka broker(s) (NOT zookeeper servers), specified in 
* 
六 
来 
来 
六 
来 
来 
来 
来 
来 


oawm 必 wm 


CD 





和 host1:port]1,host2:port2 form. 
定妆 二 If not starting from a checkpoint, "auto.offset.reset" may be set 
to "largest" or "smallest" 

可 本 to determine where the stream starts (defaults to "largest") 
Ds @param topics Names of the topics to consume 

A @tparam K type of Kafka message key 

8. @tparam V type of Kafka message value 

9 Qtparam KD type of Kafka message key decoder 

20. @tparam VD type of Kafka message value decoder 
21, @return DStream of (Kafka message key, Kafka message value) 
2 */ 

3 def createDirectStream[K, V, KD <: Decoder[K], VD <: Decoder[V]]( 
24. jssc: JavaStreamingContext, 
5 keyClass: Class[K], 
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2 valueClass: Class[V], 

2 keyDecoderClass: Class[KD], 

8 valueDecoderClass: Class[VD], 

295 kafkaParams: JMapl[String, String], 

过 topics: JSet[String] 

号 本 ) : JavaPairInputDStream[K，V] 了 

32 implicit val keyCmt: ClassTag[K] = ClassTag (keyClass) 

29> implicit val valueCmt: ClassTag[V] = ClassTag (valueClass) 

2 implicit val keyDecoderCmt: ClassTag[KD] = ClassTag (keyDecoderClass) 
本 implicit val valueDecoderCmt: ClassTag[VD] = ClassTag (valueDecoderClass) 
过 createDirectStream[K，V，KD，VD] ( 

3 jssc.ssc, 

38; Map (kafkaParams.asScala.toSeq: _*), 

392 Set (topics.asScala.toSeq: _*) 

40. ) 

Ce | 

a2. } 


Spark Streaming No Receivers 方式 的 createDirectStream 方法 不 使 用 接收 器 ， 而 是 创建 输 
入 流 直 接 从 Kafka 集群 节点 拉 取 消息 。 输 入 流 保证 每 个 消息 从 Kafka 集群 拉 取 以 后 只 完全 转 
换 一 次 ， 保 证 语义 一 致 性 。 

(1) 无 接收 器 :createDirectStream 方式 不 使 用 任何 接收 器 ,createDirectStream 直接 从 Kafka 
集群 进行 查询 。 

(2 ) 偏 移 量 : createDirectStream 方式 不 使 用 Zookeeper 存 储 偏 移 量 。 消 费 的 偏 移 量 由 Stream 
本 身 进行 跟踪 记录 。Kafka 的 监控 依赖 于 Zookeeper， 为 监控 createDirectStream 的 消费 信息 ， 
我 们 可 以 从 Spark Streaming 应 用 程序 中 编写 代码 来 更 新 Kafka/Zookeeper 的 偏 移 量 ， 偏 移 量 
可 以 从 每 一 批 流 处 理 中 生成 的 RDDS 偏 移 量 来 获取 [org.apache.spark.streaming.kafka. 
HasOffsetRanges]。 

(3) 容错 恢复 : 如 果 是 Spark Driver 容错 恢复 ， 可 以 在 StreamingContext 中 启用 检查 点 。 
消费 的 偏 移 量 消息 可 以 从 检查 点 恢复 。 

(4) 端 到 端 语义 : createDirectStream 方式 确保 每 个 记录 有 效 接收 和 转换 一 次 ， 但 不 保证 
转换 以 后 的 数据 只 输出 一 次 。 对 于 端 到 端的 语义 一 致 性 ， 必 须 确 保 输出 操作 是 党 等 的 〈 注 意 
多 次 执行 所 产生 的 影响 均 为 与 一 次 执行 的 影响 相同 ) ， 或 使 用 交易 记录 自动 输出 。 

本 章 电 商 广告 点 击 综合 案例 采用 No Receivers direct 方式 ， 通 过 Spark Streaming direct 
方式 直接 读 取 Kafka 的 数据 ， 此 时 数据 消费 的 偏 移 量 没有 自动 更 新 到 Zookeeper 中 。 而 我 们 
使 用 的 第 三 方 工具 KafkaOffsetMonitor 监控 Kafka 消费 信息 的 时 候 是 从 Zookeeper 中 获取 消费 
记录 信息 的 ， 因 此 在 KafkaOffsetMonitor 中 监控 不 到 Kafka 消费 的 数据 。 

为 了 在 第 三 方 工具 KafkaOffsetMonitor 监控 到 Kafka 的 消费 信息 ， 我 们 需 在 Spark 
Streaming 应 用 程序 代码 编码 操作 偏 移 量 ， 实 现 Kafka 集群 的 kafkacluster 自动 将 偏 移 量 更 新 
到 Zookeeper 中 ， 这 样 KafkaOffsetMonitor 就 能 实时 监控 到 Kafka 的 消费 信息 ， 并 在 Web 页 
面 展示 。 

Kafka 的 偏 移 量 信息 同步 更 新 到 Zookeeper。 

口 从 adClickedStreaming transformToPair 中 获取 offsetRanges 信息 。 

口 在 foreachRDD 中 循环 遍历 offsetRanges 的 内 容 , 读 取 topicAndPartition 及 untilOffset 








到 而 入 
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数据 

口 通过 kafkaCluster.setConsumerOffsets 更 新 Zookeeper 中 的 偏 移 量 ， 使 用 第 三 方 软件 
KafkaOffsetMonitor 监控 Kafka 的 生产 数据 、 消 费 数 据 的 情况 。 

Kafka 的 offset 信息 同步 更 新 到 Zookeeper 代码 如 下 。 


1. scala.collection.immutable.Map scalaImmutablekafkaParameters= scala. 
collection.JavaConverters .mapAsScalaMapConverter (kafkaParameters) .asS 
cala() .toMap (scala.Predef .conforms ()); 





3 final AtomicReference<OffsetRange[]> offsetRanges = new 
AtomicReference<OffsetRange[]>(); 

< adClickedStreaming.transformToPair( new Function<JavaPairRDD< 
String, String>, JavaPairRDD<String, String>>() { 

A private static final long serialVersionUID = 1L; 

Se 

Se @Override 

a public JavaPairRDD<String, String> call (JavaPairRDD<String, 

S tring> rdd) throws Exception { 

二 OffsetRange[] offsets = ((HasOffsetRanges) rdd.rdd 

() ) .offsetRanges (); 

各 offsetRanges.set (offsets); 

10. return rdd; 

11. } 

了 2 

de }) . foreachRDD ( new Function<JavaPairRDD<String, String>, Void>(){ 

14. 

FE private static final long serialVersionUID = 1L; 

16. 

hs @Override 

:有司 public Void call (JavaPairRDD<String, String>rdd) throws Exception { 

19. KafkaCluster kafkaCluster= new KafkaCluster(scala 

ImmutablekafkaParameters); 
ZO for (OffsetRange o : offsetRanges.get()) { 
2 TopicAndPartition topicAndPartition=new TopicAndPartition 
("AdClicked",o.partition()); 
2 Map<TopicAndPartition,Long> offsetsmap = new HashMap 
<TopicAndPartition, Long>(); 
FP 家 offsetsmap.put (topicAndPartition, o.untilOffset()); 
24. scala.collection.immutable.Map scalaImmutableoffsetsmap= 


scala.collection.JavaConverters.mapAsScalaMap 
Converter (offsetsmap) .asScala() .toMap (scala. 
Predef .conforms ()); 


2 kafkaCluster.setConsumerOffsets ("Kafka-grouplId", 
scalaImmutableoffsetsmap); 

2 je 

人 } 

28. return null; 

2 } 

30. 1D); 


16.2” 电 商 广告 点 击 综 合 案例 在 线 点 击 统计 实战 





bon 





电 商 广告 点 击 综合 案例 在 线 点 击 统计 实战 ， 对 黑 名 单 用 户 的 过 滤 要 进行 两 次 判断 。 
口 基于 电 商 广告 点 击 综合 案例 数据 库 中 获取 的 黑 名 单 进行 过 滤 〈 黑 名 单 的 过 滤 在 16.3 
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节 阐 述 ) ， 第 1 次 过 滤 掉 黑 名 单 用户 以 后 ， 初 步 统计 点 击 了 多 少 条 广告 。 
口 基于 初步 统计 的 广告 点 击 次 数 ， 动 态 判断 用 户 点 击 的 次 数 是 否 超过 阔 值 ， 如 果 判 断 
为 黑 名 单 用 户 ， 则 更 新 一 下 黑 名 单 的 数据 表 ; 第 2 次 过 滤 掉 黑 名 单 用 户 点 击 的 无 效 
广告 数 ， 计 算出 有 效 的 广告 点 击 。 

口 电 商 广告 点 击 综合 案例 在 线 点 击 统计 的 数据 持久 化 到 MySQL 数据 库 。 

口 广告 点 击 的 基本 数据 格式 : timestamp、ip、userID、adID、province、city。 

电 商 广告 点 击 综合 案例 在 线 点 击 统 计 实战 中 ，KafkaUtils 调用 createDirectStream 生成 
JavaPairmputDStream 类 型 的 adClickedStreaming，adClickedStreaming 的 格式 为 Key-Value 键 
值 对 <String, String>，Key 为 Kafka 生成 的 key 值 ，Value 值 是 Spark Streaming 从 Kafka 中 读 
取 的 一 行 行 的 数据 。adClickedStreaming 经 过 黑 名 单 的 动态 过 滤 后 〈 黑 名 单 的 过 滤 在 16.3 节 
阐述 ) ， 转 换 生 成 了 JavaPairDStream<String, String> 类 型 的 filteredadClickedStreaming。 

首先 实现 第 1 次 过 滤 掉 黑 名 单 用 户 以 后 ， 初 步 统 计 点 击 了 多 少 条 广告 。 

(1) 对 filteredadClickedStreaming 使 用 mapToPair 算 子 进行 转换 。mapToPair 的 函数 签名 
如 下 ， 传 入 PairFunction 函数 的 第 一 个 参数 是 元 组 Tuple2<String, String>， 元 组 的 第 一 个 元 素 
是 Kafka 提供 的 key 值 , 元 组 的 第 二 个 元 素 是 黑 名 单 过 滤 以 后 读 入 的 一 行 行 广告 点 击 的 数据 ; 
PairFunction 函数 的 第 二 个 参数 是 mapToPair 转换 以 后 的 返回 结果 (Key-Value) 的 key 值 ， 
类 型 是 String 类 型 ，PairFunction 函数 的 第 三 个 参数 是 mapToPair 转换 以 后 的 返回 结果 
(Key-Value) 的 Value 值 ， 类 型 是 Long 类 型 。 

1. public <K2, V2> JavaPairDStream<java.lang.String, java.lang.Long> 


mapToPair (PairFunction<scala.Tuple2<java.lang.String, java.lang.Sstring>, 
java.lang.Sstring, java.lang.Long> f£) 























(2) 对 filteredadClickedStreaming 做 mapToPair 转换 ， 读 入 filteredadClickedStreaming 的 
每 一 行 数据 是 一 个 元 组 ， 元 组 第 二 个 元 素 是 黑 名 单 过 滤 以 后 读 入 的 一 行 行 广告 点 击 的 数据 ， 
我 们 使 用 “\t” 分 隔 符 进 行 切 分 ， 依 次 获取 时 间 戳 、 耳 地址、 用户 ID、 广 告 ID、 省 份 、 城 市 
等 数据 ， 然 后 使 用 “_” 下 夯 线 分 隔 符 重新 组 拼 成 一 条 条 疡 的 je 字 clickedRecord。 重 新 组 拼 的 
目的 是 定义 Key 值 ， 方 便 后 续 按 Key 进行 聚合 汇总 统计 总 计数 ， 最 终生 成 新 的 
JavaPairDStream<String, Long> 类 型 的 pairs， 其 格式 是 Key-Value，Key 值 为 组 拼 的 广告 点 击 
记录 clickedRecord (timestamp_ip_userID_adID_province_city) ，Value 值 为 计数 1 次 , 即 (组 
拼 的 广告 点 击 记录 ， 计 算 1 次 ) 。 

(3) 对 pairs 使 用 reduceByKey 算 子 ， 计 算 某 个 用 户 在 某 时 间 、IP、 省 份 、 城 市 点 击 某 一 
条 广告 的 总 次 数 ， 按 Key (timestamp_ip_userID_ adID _province_city) 进行 统计 汇总 。 
电 商 广告 点 击 综 合 案 例 在 线 点 击 统计 代码 如 下 。 








1. JavaPairDstream<String, Long> pairs = filteredadClickedStreaming 

2 .mapToPair (new PairFunction<Tuple2<String, String>, 
string, Long>() { 

3 @Override 

4 public Tuple2<String, Long> call (Tuple2<String, 


String> 七 ) throws Exception { 
String[] splited = t. 2.split("\t"); 
String timestamp = splited[0]; // yyyy-MM-dd 
String ip = splited[1]; 
String userID = splited[2]; 
String adID = splited[3]; 


woau 


二 
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10. String province = splited[4]; 

3 String city = splited[5]; 

125 

MS String clickedRecord = timestamp +" "+ip+"™" 

+ userIiD Hw "adlD Ht "mt Brovwince +t 

ma + city; 

15: 

16. return new Tuple2<String, Long> (clickedRecord, 1L1); 

17. } 

18. 1D); 

49> 

2 /** 

1 * 对 初始 的 DStream 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 
* 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 

225 * 计算 每 个 Batch Duration 中 每 个 User 的 广告 点 击 量 

23= -Wh 

24. JavaPairDStream<String，Long> adClickedUsers = pairs.reduceByKey 
(new Function2<Long, Long, Long>() { 

25% 

26. @Override 

a public Long call (Long vl, Long v2) throws Exception { 

28 . // TODO Auto-generated method stub 

295 return v1 + v2; 

30. } 

3 

32. 1D); 


接 下 来 进行 第 2 次 的 黑 名 单 点 击 过 滤 ， 基 于 之 前 初步 统计 的 广告 点 击 次 数 ， 动 态 判 断 用 
户 点 击 的 次 数 是 否 超过 阔 值 ， 如 果 判 断 为 黑 名单 用 户 ， 则 更 新 一 下 黑 名 单 的 数据 表 ， 过 滤 掉 
黑 名 单 用 户 点 击 的 无 效 广告 数 ， 计 算出 有 效 的 广告 点 击 。 

什么 叫 有 效 的 广告 点 击 ? 

(1) 复杂 化 的 有 效 广告 点 击 的 处 理 ; 一 般 都 是 采用 机 器 学 习 训练 好 模型 ， 直 接 使 用 机 器 
学 习 模型 在 线 进行 过 滤 。 

(2) 简单 的 有 效 广告 点 击 的 处 理 : 可 以 通过 一 个 批 处 理 时 间 中 Batch Duration 中 的 点 击 
次 数 来 判断 是 不 是 非法 广告 点 击 。 例 如 ， 在 某 个 时 间 用 户 连续 点 击 广告 儿 十 次 或 上 百 次 ， 但 
是 实际 上 ， 非 法 广告 点 击 程序 会 尽 可 能 模拟 真实 的 广告 点 击 行为 ， 不 会 在 某 个 时 间 点 连续 地 
点 击 多 次 ， 所 以 通过 一 个 批 处 理 时 间 Batch 来 判断 是 否 完整 ， 我 们 需要 对 例如 一 天 (也 可 以 
是 每 一 个 小 时 ) 的 数据 进行 判断 ! 

(3) 有 效 广告 点 击 的 处 理 如 下 。 例 如 ， 一 段 时 间 内 ， 同 一 个 (MAC 地 址 ) 有 多 个 用 
户 的 账号 访问 ; 可 以 统计 一 天 内 一 个 用 户 点 击 广告 的 次 数 ， 如 果 一 天 点 击 同样 的 广告 操作 50 
次 ,就 列 入 黑 名 单 ; 黑 名 单 有 一 个 重点 的 特征 :动态 生成 ! 所 以 ,每 个 批 处 理 时 间 Batch Duration 
都 要 考虑 是 否 有 新 的 黑 名 单 加 入 ， 此 时 黑 名 单 需 要 存储 起 来 ， 具 体 存 储 在 什么 地 方 呢 ， 存 储 
在 DB/Redis 中 即 可 ; 例如， 邮件 系统 中 的 “ 黑 名 单 ”， 可 以 采用 Spark Streaming 不 断 地 监 
控 每 个 用 户 的 操作 ， 如 果 用 户 发 送 邮件 的 频率 超过 设 定 的 值 ， 就 可 以 暂时 把 用 户 列 入 “ 黑 名 
单 ”， 从 而 阻止 用 户 过 度 频繁 的 发 送 邮件 。 

本 章节 电 商 广告 点 击 综合 案例 着 重 于 Spark Streaming 的 在 线 流 处 理 的 开发 , 对 有 效 广告 
点 击 的 处 理 做 了 简化 ， 简 单 地 判断 用 户 点 击 广告 的 次 数 大 于 1， 就 假设 为 黑 名 单 用 户 ， 更 新 
黑 名 单 的 数据 库 表 ， 做 黑 名 单 测试 使 用 ， 这 里 省 略 了 数据 库 表 黑 名 单 的 更 新 代码 ， 同 时 ， 为 
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测试 方便 ， 我 们 直接 返回 false ， 对 用 户 的 广告 点 击 记录 都 不 进行 过 滤 ， 以 便 后 续 应 用 的 测 
试 。 生 成 JavaPairDStream<String, Long> 类 型 的 filteredClickInBatch。 
有 效 广 告 点 击 处 理 的 代码 如 下 。 





Ys JavaPairDStream<String，Long> filteredClickInBatch = adClickedUsers 
.filter (new Function<Tuple2<String, Long>, Boolean>() { 
E 扩 

4. @Override 

5 public Boolean call (Tuple2<String, Long>v1) throws Exception{ 
(3 wi 

5 // 更 新 黑 名 单 的 数据 表 

8. return false; 

9 } else { 

0s return true; 

1 } 

2 

35 } 

14. ]) 7 


接 下 来 ， 我 们 对 fteredClickInBatch 使 用 foreachRDD 算 子 ， 将 foreachRDD 中 用 户 广告 
点 击 记录 持久 化 到 MySQL 数据 库 中 。 对 filteredClickInBatch 进行 foreachRDD 函数 触发 ， 基 
于 设置 的 Duration 时 间 间 隔 启动 Job。 将 record._1 按 " "进行 分 割 ， 提 取出 tmestamp、ip、 
userID、adID、province、city、ClickedCount 各 个 字段 ， 并 在 数据 表 中 查询 表 adclicked， 如 
没 记录 ， 则 插入 ; 有 记录 ， 则 更 新 。 


1. filteredClickInBatch.foreachRDD (new Function<JavaPairRDD<String, Long>, 


Void>() { 

了 

之 记 @Override 

4. public Void call (JavaPairRDD<String, Long> rdd) throws E 
xception { 

Ss 

6 if (rdd.isEmpty()) { 

We 

BE } 

gs rdd.foreachPartition(new VoidFunction<Iterator<Tuple2< 

String，Long>>>() {//Todo 插入 数据 库 
De 


16.3 电 商 广告 点 击 综合 案例 黑 名 单 过 滤 实 现 


本 节 阅 述 电 商 广 告 点 击 综合 案例 中 黑 名 单 的 过 滤 实 现 。 

因为 Spark Streaming 应 用 程序 要 对 黑 名 单 进行 在 线 过 滤 ，Spark Streaming 从 Kafka 集群 
中 抓 取 的 数据 是 在 Spark RDD 中 的 , 所 以 在 Spark 中 必然 使 用 transform 函数 ; 但 是 ， 在 这 里 
我 们 必须 使 用 transformToPair, 原因 是 读 取 进 来 的 Kafka 的 数据 是 Pair<String,String> 类 型 的 ， 
另外 一 个 原因 是 ， 过 滤 后 的 数据 要 进行 进一步 处 理 ， 所 以 必须 是 读 进来 的 Kafka 数据 的 原始 
类 型 DStream<String, String>。 每 个 Batch Duration 中 实际 上 将 输入 的 数据 被 一 个 且 仅 仅 被 一 
个 RDD 封装 ， 可 以 有 多 个 inputDstream， 但 是 在 产生 Job 的 时 候 ， 这 些 不 同 的 mputDstream 
在 Batch Duration 中 就 相当 于 Spark 基于 HDFS 数据 操作 的 不 同文 件 来 源 。 
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根据 电 商 广告 点 击 综合 案例 的 业务 需求 ， 黑 名 单 过 滤 具 体 思路 步骤 如 下 。 

(1) 从 MySQL 数据 库 中 查询 到 黑 名 单数 据 ， 并 且 将 黑 名 单数 据 转 换 成 RDD (16.5 节 对 
电 商 广告 点 击 综合 案例 动态 黑 名 单 过 滤 真 正 的 实现 代码 进行 阐述 ) 。 

(2) Spark Streaming 从 Kafka 集群 中 抓 取 用 户 广告 点 击 数据 ， 将 黑 名单 的 RDD 和 流 处 

理 的 RDD 进行 左 关联 , 将 每 一 批 流 处 理 的 用 户 广 告 点 击 数据 过 滤 掉 黑 名 单 用 户 的 数据 (16.5 
节 对 电 商 广告 点 击 综合 案例 动态 黑 名 单 过 滤 真 正 的 实现 代码 进行 盖 述 ) 。 
(3) 基于 用 户 广 告 点 击 数据 表 ， 动 态 过 滤 黑 名 单 用 户 。 黑 名 单 生 成 来 自 两 个 方面 : 一 方 
面 ， 从 数据 库 中 查询 到 已 有 的 黑 名 单 用 户 进行 过 滤 ; 另 一 方面 ， 黑 名 单 是 动态 生成 的 ，Spark 
Streaming 持续 不 断 地 一 直 运 行 ， 在 用 户 点 击 广 告 的 时 候 , 会 动态 产生 黑 名 单 用 户 。 每 个 流 处 
理 时 ， 都 要 考虑 是 否 有 新 的 黑 名 单 加 入 。 例 如 ， 某 一 时 间 用 户 广告 点 击 的 次 数 超过 阔 值 ， 就 
判定 该 用 户 为 黑 名 单 用 户 。 

(4) 动态 生成 的 黑 名 单 可 能 包括 重复 的 黑 名单 用 户 ， 我 们 需要 首先 将 黑 名单 用 户 去 重 转 
换 ， 然 后 将 黑 名 单 用 户 持久 化 到 MySQL 数据 库 中 。 

(5) 使 用 数据 库 连 接 池 的 高 效 读 写 数据 库 的 方式 把 唯一 的 不 重复 的 黑 名 单 用 户 数据 写 入 
数据 库 MySQL, 入 库 以 后 的 黑 名 单数 据 又 可 以 提供 给 第 二 步 Spark Streaming 每 一 批 流 处 理 
RDD 和 黑 名 单 RDD 关联 使 用 。 


16.3.1 基于 用 户 广告 点 击 数据 表 ， 动 态 过 滤 黑 名 单 用 户 
































在 电 商 广告 点 击 综合 案例 之 前 ， 我 们 对 有 效 广告 点 击 的 处 理 做 了 简化 ， 简 单 地 由 用 户 点 
击 广告 的 次 数 来 判断 用 户 是 否 为 黑 名 单 用 户 , 生成 黑 名 单 过 滤 以 后 的 JavaPairDStream<String， 
Long> 类 型 的 filteredClickInBatch， 其 格式 是 Key-Value，Key 值 为 组 拼 的 广告 点 击 记录 
clickedRecord(timestamp_ip_userID_adID_province_city)，Value 值 为 汇聚 的 点 击 总 次 数 。 

(1) 对 filteredClickInBatch 使 用 算 子 filter 进行 过 滤 ，filteredClickInBatch 每 一 行 数据 的 
第 一 个 元 素 vl. 1 是 组 拼 的 广告 点 击 记 录 clickedRecord(timestamp ip_userID adID_ 
province_city)， 我 们 使 用 " "分 隔 符 进 行 切 分 ， 然 后 分 别 取 出 时 间 、 用 户 ID、 广 告 ID 

(2) 接 下 来 根据 时 间 date、 用 户 ID userID、 广 告 ID adID 等 条 件 去 查询 用 户 点 击 广告 的 
数据 表 ， 获 得 总 的 点 击 次 数 ， 基 于 点 击 次 数 判 断 是 否 属于 黑 名 单 点 击 。 这 里 我 们 简化 了 电 商 
广告 点 击 综合 案例 的 代码 编写 ， 省 略 了 从 数据 库 查 询 用 户 广告 点 击 次 数 的 步 又， 直接 赋予 变 
量 clickedCountTotalToday 的 值 等 于 81， 来 模拟 某 用 户 在 某 个 时 间 点 击 了 81 次 广告 。 
clickedCountTotalToday 模拟 了 用 户 这 个 时 间 总 的 点 击 次 数 , 我 们 设 定 一 个 黑 名 单 用 户 点 击 的 
闵 值 ， 如 可 以 设置 50 次 ， 超 过 50 次 就 可 以 判定 用 户 为 黑 名 单 用 户 ，if 表达 式 就 返回 true， 
获取 到 黑 名 单 用 户 的 点 击 数 据 。 

(3) 生成 JavaPairDStream<String，Long> 类 型 的 blackListBasedOnHistory ，blackList 
BasedOnHistory 是 黑 名 单 用 户 广 告 点 击 数 据 , 其 格式 为 Key-Value。Key 值 为 黑 名 单 用 户 的 广 
告 点 击 记录 clickedRecord(timestamp _ip_userID adID _province_city), Value 值 为 黑 名 单 用 户 汇 
聚 的 点 击 总 次 数 。 

基于 用 户 广告 点 击 数据 表 ， 动 态 过 滤 黑 名 单 用 户 代码 如 下 。 


1. JavaPairDStream<String，Long> blackListBasedOnHistory = filteredClickInBatch 
2 .filter (new Function<Tuple2<String, Long>, Boolean>() { 
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六 Q@Override 
4. public Boolean call (Tuple2<String, Long> v1) throws 
Exception { 


De // 广 告 点 击 的 基本 数据 格式 : timestamp、ip、userID、adID、province、 city 

6. Seringll ploteal v1 spl (nD) 

pp String date = splited[0]; 

8 String userID = splited[2]; 

Te String adID = splited[3]; 

10% /本 来 
* 接 下 来 根据 date、userID、adID 等 条 件 查询 用 户 点 击 广告 
* 的 数据 表 ， 获 得 总 的 点 击 次 数 ， 这 时 基于 点 击 次 数 判断 是 否 
* 属 于 黑 名 单 点 击 

TE */ 

12> 

Ly int clickedCountTotalToday = 81; 

i if (clickedCountTotalToday > 50) { 

35 return true; 

16. } else { 

Ls return false; 

18. } 

了 和 } 

208 1 


16.3.2 黑 名 单 的 整个 RDD 进行 去 重 操作 


黑 名 单 用 户 blackListBasedOnHistory 的 数据 包括 重复 的 黑 名 单 用 户 ， 例 如 ， 某 个 用 户 在 
不 同时 间 的 点 击 次 数 都 超过 了 设 定 阔 值 ， 那 么 用 户 就 属于 黑 名 单 ， 而 且 出 现 了 多 次 。 我 们 需 
要 将 黑 名 单 用 户 去 重 转换 ， 然 后 将 黑 名 单 用 户 持久 化 到 MySQL 数据 库 中 。 

(1) blackListBasedOnHistory 格式 为 Key-Value，blackListBasedOnHistory 每 行 数据 的 第 

-个 元 素 v1.1 的 Key 值 为 黑 名单 用 户 的 广告 点 击 记 录 clickedRecord(timestamp ip 

userID_adID_province_city), 根据 " "分 隔 符 进行 切 分 , 返回 用 户 ID, 生成 JavaDStream<String> 
格式 的 blackListuserIDtBasedOnHistory， 其 值 为 黑 名 单 用 户 ID。 

(2) blackListuserIDtBasedOnHistory 使 用 transform 算 子 进行 转换 ， 将 读 入 的 每 行 黑 名 单 
用 户 广 告 点 击 数据 JavaRDD<String>， 通 过 distinct 方法 进行 去 重 ， 返 回 不 重复 的 唯一 的 黑 名 
单 用 户 列表 。 生 成 JavaDStream<String> 类 型 的 blackListUniqueuserIDtBasedOnHistory， 其 值 
为 去 重 的 黑 名 单 用 户 ID。 

黑 名 单 用 户 去 重 操作 的 代码 如 下 。 




















:IE /站 让 
* 必 须 对 黑 名 单 的 整个 RDD 进行 去 重 操作 ! 
人 */ 
区 类 
4- JavaDStream<String> blackListuserIDtBasedOnHistory = blacklist 
BasedOonHistory.map (new Function<Tuple2<String, Long>, String>() { 
6 
5 QOverTride 
8. public String call (Tuple2<String, Long> v1) throws 
Exception { 
9. // 待 办 事项 : 自动 生成 方法 存根 
LO Teturn vl Tsplit(™ “Lele 
于 | 
于 2 1D); 
:攻守 JavaDStream<String> blackListUniqueuserIDtBasedOnHistory = 


到 
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blackListuserIDtBasedOnHistory 


14. -transform (new Function<JavaRDD<String>, JavaRDD<String>>() { 

5 

16. Q@Override 

yi public JavaRDD<String> call (JavaRDD<String> rdd) 
throws Exception { 

se // 待 办 事项 ， 自 动 生成 方法 存根 

19: return rdd.distinct (); 

20. } 

坊村 ]) 7 


16.3.3 ”将 黑 名 单 写 入 到 黑 名 单数 据 表 


接 下 来 我 们 将 blackListUniqueuserIDtBasedOnHistory 使 用 foreachRDD 遍历 每 个 RDD， 
对 于 RDD， 使 用 foreachPartition 遍历 每 个 分 区 。 

这 里 ， 我 们 使 用 数据 库 连 接 池 的 高 效 读 写 数 据 库 的 方式 把 数据 写 入 数据 库 MySQL; 由 
于 传 入 的 参数 是 一 个 Iterator 类 型 的 集合 ， 所 以 为 了 更 加 高 效 地 操作 ， 我 们 需要 批量 处 理 。 例 
如 ， 一 次 性 插入 1000 条 Record， 使 用 insertBatch 或 者 updateBatch 类 型 的 操作 ; 插入 的 用 户 
信息 可 以 只 包含 用 户 ID useID， 此 时 直接 插入 黑 名 单数 据 表 即 可 。 

将 黑 名 单 写 入 到 黑 名 单数 据 表 的 代码 如 下 。 


1. blackListUniqueuserIDtBasedOnHistory.foreachRDD (new Function<JavaRDD< 
String>, Void>() { 


2 

3 @Override 

十 > public Void call (JavaRDD<String> rdd) throws Exception { 

rdd. foreachPartition (new VoidFunction<Iterator<String>>(){ 

6 

到 @Override 

3 public void call (Iterator<String> t) throws Exception { 

9. List<Object[]> blackList = new ArrayList<Object[]>(); 

2 有 1 访 

ds while (t.hasNext()) { 

志和 2 blackList.add (new Object[]{ (Object)t.next ()}); 

FE } 

14. JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBC 
Instance(); 

于 区 jdbcwWrapper.-doBatch ("INSERT INTO blacklisttable 
VALUES (2?) ", blackList); 

7 } 

了 1); 

L185 return null; 

9 } 

20. nD); 


16.4 电 商 广告 点 击 综合 案例 底层 数据 层 的 建 模 和 编码 实现 
(基于 MySQL ) 


本 节 痢 述 电 商 广 告 点 击 综合 案例 实现 底层 数据 层 的 建 模 和 编码 实现 (基于 MySQL) 。 
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在 生产 环境 中 ， 底 层 数据 层 的 建 模 至 关 重 要 。 传 统 的 关系 型 数据 库 都 是 伪 分 布 式 ， 在 100 个 
使 用 了 底层 数据 持久 化 层 的 案例 中 , 至 少 有 90 个 底层 都 是 基于 数据 库 的 。 当 然 , 可 以 选择 基 
于 Hbase 或 者 Redis， 但 是 实质 上 大 多 数 人 底层 都 会 基于 数据 库 。 有 两 个 非常 重要 的 原因 : 
第 一 ， 数 据 库 可 以 非常 高 效 地 读 和 写 ， 尤 其 是 写 的 层次 ， 频 繁 地 、 批 量 地 插入 ， 数 据 库 特 别 
适合 ; 第 二 , 传统 的 IT 系统 大 多 数 都 是 基于 数据 库 的 ， Spark 处理 的 结果 如 果 扔 给 了 数据 库 ， 
传统 的 Jave EE 系统 (如 spring) ， 可 以 直接 基于 数据 库 的 驱动 ,或 者 基于 第 三 方 框架 去 操作 
数据 库 中 的 数据 。 而 数据 库 中 的 数据 是 Spark 计算 后 的 结果 ， 可 以 操作 这 些 数 据 绘 制 趋势 图 
等 。 如 股票 一 直 变 化 的 趋势 图 ， 使 用 Spark Streaming+ 数 据 库 +Jave EE 技术 就 特别 适合 。 如 
每 隔 十 秒 刷 新 一 次 ，Spark Streaming 是 流 式 的 功能 ， 不 断 地 更 新 数据 ， 就 会 发 现 图 一 直 在 动 。 
例如 ， 发 现 纽约 证 券 交 易 所 、 中 国 香港 证 券 交 易 所 的 大 屏幕 上 不 同 公司 的 股票 一 直 在 变化 ， 

变化 的 背后 是 经 过 了 复杂 的 处 理 ， 此 时 我 们 基于 Spark Streaming 就 特别 适合 完成 诸如 此 类 的 
事情 。 

在 生产 环境 中 ，Spark 将 计算 处 理 的 数据 写 到 数据 层 中 ，Spark 在 计算 的 过 程 中 ， 有 时 也 
需要 从 数据 库 中 读 取 数据 ， 如 黑 名 单数 据 的 过 滤 ， 需 要 从 数据 库 中 读 取 黑 名 单 的 数据 生成 
RDD, 然后 执行 Join 操作 。Java EE 系统 从 数据 库 中 抓 取 数据 , 然后 通过 Web 系统 泻 染 数据 ， 
进行 可 视 化 展示 。 图 16-5 展示 了 数据 层 的 重要 性 。 数 据 层 通常 使 用 数据 库 ， 如 MySQL 数据 
库 。 底 层 数据 层 的 建 模 示 意图 如 图 16-5 所 示 。 

可 视 化 :Web、chart 
Java EE 系统 









































Spark 





图 16-5 底层 数据 层 的 建 模 示 意图 


16.4.1 电 商 广告 点 击 综合 案例 数据 库 链 接 单 例 模式 实现 


电 商 广告 点 击 综合 案例 不 是 严格 地 采用 BAT 百度、 阿里、 腾讯 公司 ) 数据 层 真正 的 架 
构 设 计 (BAT 公司 规范 了 数据 层 设计 、 数 据 接口 、 数 据 库 工厂 ， 数 据 库 的 配置 不 能 使 用 硬 编 
码 ， 一 定 会 给 一 个 配置 ) 。 我 们 主要 是 实现 数据 层 的 功能 ， 将 相关 功能 放 到 一 个 文件 中 ， 定 
义 JDBCWrapper。 

(1) 第 一 件 事情 ， 使 用 static 代码 块 将 数据 库 加 载 进来 。Class.forName("com. 
mysql.jdbc.Driver") 如 果 加 载 MySQL 数据 库 有 异常 ， 可 使 用 try .… catch 捕获 异常 。 

(2) 使 用 单 例 模式 获取 jdbcInstance 实例 。 在 geJDBCInstance 方法 中 ， 只 要 获得 一 个 实 
例 就 可 以 了 。 

















“Gl9e 
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首先 按 以 下 的 代码 编写 ， 如 果 jdbcInstance 等 于 空 ， 就 创建 返回 一 个 JDBCWrapper。 这 
样 写 单 例 不 行 ， 举 一 个 很 简单 的 例子 ， 如 果 有 3 条 线程 同时 来 请 求 ，3 条 线程 同时 都 发 现 没 
有 实例 ， 那 就 会 同时 创建 出 3 个 jdbcInstance 实例 。 





1. public static JDBCWrapper getJDBCInstance() { 

if (jdbcInstance == null) { 

区 应 jdbcInstance = new JDBCWrapper(); 

4. } 

8s return jdbcInstance; 

6. } 

对 单 例 代 码 继续 完善 , 有 两 个 地 方 可 以 加 synchronized: 第 一 个 地 方 是 在 getJDBCInstance 


方法 名 前 加 synchronized; 第 二 个 地 方 是 在 synchronized (JDBCWrapper.class) 方 法 名 前 加 
synchronized。 但 这 样 写 还 不 行 ， 里 面 还 要 再 进行 一 次 判断 。 


public static JDBCWrapper getJDBCInstance() { 
if (jdbcInstance == null) { 
synchronized (JDBCWrapper.class) { 
jdbcInstance = new JDBCWrapper (); 
| 
’ 


return jdbcInstance; 


co vaw 必 wm 


- } 


接 下 来 在 单 例 代码 里 面 由 进行 一 次 判断 ， 代 码 已 经 有 点 技术 含量 了 ， 虽 然 只 是 一 个 小 单 
例 。 如 果 有 3 条 线程 来 请 求 ，jdbcInstance 等 于 空 ， 这 个 地 方 有 一 个 同步 关键 字 synchronized 
(JDBCWrapper.class)， 屠 只 有 一 条 线程 能 进去 ， 一 条 线程 进去 之 后 ， 运 行 完 成 ， 确 实 会 生成 

-个 实例 ， 第 二 条 线程 获得 这 把 锁 ， 第 二 条 线程 发 现实 例 不 为 空 ， 就 不 运行 了 ， 直 接 返 回 ， 
第 三 条 线程 也 是 直接 返回 。 这 样 就 保证 了 单 例 ， 是 既 高 效 、 又 轻松 的 方式 。 单 例 我 们 先 做 到 
这 个 程度 。 


ih public static JDBCWrapper getJDBCInstance() { 
if (jdbcInstance == null) { 

< synchronized (JDBCWrapper.class) { 

A if (jdbcInstance == null) { 

5. jdbcInstance = new JDBCWrapper (); 
6 i 

了 全 } 

8. } 

9. return jdbcInstance; 

10. } 


(3) 在 单 例 模 式 中 构造 私有 的 构造 器 private JDBCWrapper0， 只 有 JDBCWrapper 类 内 才 
可 以 调用 构造 器 。 通 过 for 循环 遍历 10 次 ， 当 创建 new JDBCWrapper0 时 ， 一 次 就 可 以 创建 
10 个 数据 库 链 接 , 每 次 链接 都 使 用 DriverManager.getConnection 获得 一 个 数据 库 链接 的 实例 ， 
我 们 将 数据 库 链 接 实例 放 入 到 LinkedBlockingQueue<Connection> 连 接 池 队 列 中 。 

(4) 写 一 个 方法 getConnection0 获 得 数据 库 句柄 ， 从 数据 库 池 中 返回 Connection。 这 里 
使 用 poll 的 方式 ， 将 数据 库 链 接 从 队列 中 擒 出 来 。 考 虑 线程 的 问题 ， 方 法 getConnection() 需 
加 上 关键 字 synchronized， 这 样 一 个 线程 就 获得 一 个 实例 。 


= Es public synchronized Connection getConnection() { 
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< return dbConnectionPool .poll(); 

生 。 } 

这 里 有 一 个 问题 ， 如 果 数 据 库 连 接 池 中 没有 东西 ， 数 据 库 连接 池 大 小 等 于 0， 那 就 获取 
不 到 连接 ， 解 决 的 方法 是 让 线程 等 一 会 儿 ， 睡 眠 20ms， 一 直 循环 ， 确 保 可 以 获取 到 数据 库 


区 public synchronized Connection getConnection () { 
3 while (0 == dbConnectionPool.size()) { 
3 | 

六 Thread.sleep (20); 

5 } catch (InterruptedException e) { 
6. // 待 办 事项 : 自动 生成 catch 块 

了 和 e-printStackTrace (); 

8 . 1 

9 } 

10. 

于 return dbConnectionPool .poll(); 

二 2 } 


电 商 广告 点 击 综 合 案例 数据 库 链 接 单 例 模式 实现 代码 如 下 。 


了 class JDBCWrapper { 

> 

3 private static LinkedBlockingQueue<Connection> dbConnectionPool = new 
LinkedBlockingQueue<Connection> (); 

4. 

= 启 Private static JDBCWrapper jdbcInstance = null; 

6. 

SR statie 

后 try { 

9 Class.forName ("com.mysql .jdbc.Driver"); 

0 } catch (ClassNotFoundException e) { 

Fh // 待 办 事项 : 自动 生成 catch 块 

de e.printstackTrace (); 

EE 守 } 

14. } 

:站 

16 . public static JDBCWrapper getJDBCInstance() { 

Ey 话 if (jdbcInstance == null) { 

8 

和 人 2 synchronized (JDBCWrapper.class) { 

20. if (jdbcInstance == null) { 

这 下 jdbcInstance = new JDBCWrapper (); 

2 1 

区 3 } 

这 

本 } 

2 

7 return jdbcInstance; 

205 } 

2 

S08 private JDBCWrapper() { 

3 

全 人。 FOr trnt i = On I CLO EN 

S33 

< 人 Er 

S57 Connection conn = DriverManager.getConnection ("jdbc: 


mysql://Master:3306/sparkstreaming", "root", 


"62s 
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365 me es 

7 dbConnectionPool.put (conn); 

3 } catch (Exception e) { 

39. // 待 办 事项 : 自动 生成 catch 块 

40. e.printstackTrace (); 

a } 

42. 

43. } 

44. 

45. } 

46. 

光学 public synchronized Connection getConnection() { 
48. while (0 == dbConnectionPool.size()) { 
49. Ery { 

50. Thread.sleep (20); 

So } catch (InterruptedException e) { 
52- // 待 办 事项 : 自动 生成 catch 块 

53- e.printSstackTrace () 

54. } 

S55 } 

56. 

ST return dbConnectionPool .poll(); 

58. } 

S59 


16.4.2 ” 电 商 广告 点 击 综合 案例 数据 库 操 作 实现 


电 商 广告 点 击 综合 案例 获得 数据 库 连 接 后 ， 我 们 要 对 数据 库 进行 操作 : 插入 、 查 询 、 修 
改 、 删 除 。 我 们 编写 一 个 通用 的 方式 来 实现 ， 首 先 考虑 的 问题 是 ， 在 Spark 中 进行 操作 ， 操 
作 的 是 一 批 又 批 的 数据 因此 要 考虑 批量 数据 的 处 理 ， 而 不 考虑 一 条 数据 的 插入 、 查 询 、 
修改 等 。 第 二 是 ， 在 数据 库 批 处 理 中 有 可 能 来 一 批 参 数 ， 因 此 传 入 paramsList。BAT (百度 、 
阿里 、 腾 讯 ) 公司 一 般 都 用 数据 库 框 架 ， 代 码 都 差不多 ， 我 们 这 里 主要 实现 数据 库 的 相关 
操作 。 

电 商 广告 点 击 综合 案例 数据 库 批量 处 理 函数 ， 批 处 理 的 SQL 语句 可 以 是 插入 、 更 新 等 。 


1. public int[] doBatch (String sqlText, List<Object[]> paramsList) { 
2 Connection conn = getConnection () ;// 获 取 数据 库 链 接 
3 PreparedStatement preparedStatement = null; 
a int[] result = null; 
i try 
| ;请 conn.setAutoCommit (false) 
ye PreparedStatement = conn.prepareStatement (sqlText); 
8. 
上 局 for (Object[] parameters : paramsList) { 
// 循 环 遍历 paramsList， 传 入 参数 
RE for (int i = 0; i < parameters.length; i++) { 
be preparedStatement .setObject(i + 1, parameters[i]); 
a } 
放生 
站 PreparedStatement .addBatch () 7 
3 二 
02 
和 result = PreparedStatement .executeBatch (); 
18 . 
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19. conn.commit (); 

20. 

之 } catch (Exception e) { 

22 // 待 办 事项 : 自动 生成 catch 块 

2 e.printstackTrace (); 

24. Fp Finally 

253 if (preparedStatement != null) { 
和 Ey 

27 preparedStatement -close();// 释 放 掉 preparedStatement 
EB } catch (SQLException e) { 

29. // 待 办 事项 : 自动 生成 catch 块 
305 e.printStackTrace (); 

< 

ee } 

EE 

3 if (conn != null) { 

号 9 try { 

kk dbConnectionPool .put (conn); 
所作 } catch (InterruptedException e) { 
38. // 待 办 事项 : 自动 生成 catch 块 
39 . e.printStackTrace (); 

40. } 

41. 1 

42. } 

43. 

44. return result; 

45. } 





点 击 综合 案例 数据 库 查 询 函 数 ， 数 据 库 处 理 的 结果 有 一 个 回调 函数 ， 回 调 函数 
- 定 是 一 个 接口 ， 将 数据 库 查 询 的 结果 传 进去 ， 查 询 函数 如 下 。 


1. public void doQuery (String sqlText, Object[] paramsList, ExecuteCallBack 
callBack) { 


区 

3 Connection conn = getConnection(); 

4. PreparedStatement PreparedStatement = null; 

:全 ResultSet result = null; 

6 

J try { 

B82 

9 PreparedStatement = conn.prepareStatement (sqlText); 
105 

TL if (paramsList != null) { 

人 for (int i = 0; i < paramsList.length; i++) { 
A preparedStatement .setObject(i + 1, paramsList[i]); 
14. 

El 1 

16 . } 

Me result = preparedStatement .executeQuery (); 

18. 

9 callBack.resultCallBack (result); 

OE 

vl (th } catch (Exception e) { 

2 // 待 办 事项 : 自动 生成 catch 块 

2 e-printStackTrace () 7 

2 } finally { 

2 if (preparedStatement != null) { 

262 ee 

2 preparedStatement .close(); 
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2 } catch (SQLException e) { 
29. // 待 办 事项 : 自动 生成 catch 块 
30. e.printstackTrace (); 

SLs 

2 } 


34. if (conn != null) { 

S52 try 并 

1 dbConnectionPool .put (conn); 
3 } catch (InterruptedException e) { 
38. // 待 办 事项 : 自动 生成 catch 块 

395 e.printstackTrace (); 

40. 1 


44. } 
45 } 


电 商 广告 点 击 综 合 案 例 数据 库 查 询 回调 函数 ， 传 入 的 参数 类 型 是 ResultSet， 数 据 库 查 询 
的 业务 罗 辑 在 resultCallBack 重 载 方法 中 实现 。 





a interface ExecuteCallBack { 
全 void resultCallBack (ResultSet result) throws Exception; 
= 


16.5 电 商 广告 点 击 综合 案例 动态 黑 名 单 过 滤 真 正 的 实现 代码 


在 16.3 节 电 商 广告 点 击 综合 案例 黑 名 单 过 滤 实 现 中 , 我 们 曾 述 了 黑 名 单 过 滤 的 具体 思路 
步 又。 其 中 ， 从 MySQL 数据 库 中 查询 到 黑 名 单数 据 ， 并 且 将 黑 名 单数 据 转换 成 RDD 以 及 
Spark Streaming 从 Kafka 集群 中 抓 取 用 户 广告 点 击 数据 ， 将 黑 名 单 的 RDD 和 流 处 理 的 RDD 
进行 左 关联 ， 将 每 一 批 流 处 理 的 用 户 广告 点 击 数据 过 滤 掉 黑 名 单 用 户 的 数据 ， 这 些 内容 将 在 
本 节 详 细 曾 述 。 


16.5.1 ”从 数据 库 中 获取 黑 名 单 封装 成 RDD 


从 数据 库 中 获取 黑 名 单 转换 成 RDD， 即 新 的 RDD 实例 封装 黑 名 单数 据 。 黑 名 单 的 表 中 
只 有 用 户 ID， 但 是 如 果 要 进行 Join 操作 ， 就 必须 是 Key-Value， 所 以 这 里 我 们 需要 基于 数据 
表 中 的 数据 产生 Key-Value 类 型 的 数据 集合 

从 数据 库 中 查询 黑 名 单 表 blacklisttable， 将 查询 到 的 黑 名单 放 入 blackListNames 列表 
List<String>， 此 时 的 blackListNames 列表 中 只 有 一 个 元 素 用 户 ID,， 而 我 们 之 后 需 将 黑 名 单 记 
录 进 行 Join 操作 , 因此 需 将 列表 中 的 元 组 转化 为 Key-Value 的 格式 。 循 环 遍历 blackListNames 
列表 ， 取 出 黑 名 单 ， 默 认定 义 黑 名 单 为 true 值 ， 生 成 元 组 〈 用 户 ID， 布 尔 值 ) ， 将 元 组 
Tuple2<String, Boolean> 放 入 到 blackListFromDB 列表 中 ， 然 后 使 用 jsc.parallelizePairs 方法 创 
建 JavaPairRDD<String, Boolean> blackListRDD。blackListRDD 用 于 封装 黑 名 单数 据 。 

从 数据 库 中 获取 黑 名 单 转 换 成 RDD 的 代码 如 下 。 


: JavaPairDStream<String, String> filteredadClickedStreaming = adClicked 
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16.5.2 














wo 心 w 


Streaming .transformToPair (new Function<JavaPairRDD<String, 
String>, JavaPairRDD<String, String>>() { 


Q@Override 
public JavaPairRDD<String, String> call (JavaPairRDD< 
String, String> rdd) throws Exception { 


final List<String> blackListNames = new ArrayList< 
String>(); 

JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBC 
Instance (); 

jdbcWrapper .doQuery ("SELECT * FROM blacklisttable", 
null, new ExecuteCallBack() { 


@Override 
public void resultCallBack (ResultSet result) 
throws Exception { 


while (result.next()) { 
blackListNames.add (result .getSstring (1)); 
} 


1); 


List<Tuple2<String, Boolean>> blackListTuple = 
new ArrayList<Tuple2<String, Boolean>>(); 


for (String name : blackListNames) { 
blackListTuple.add (new Tuple2<String, Boolean> 
(name, true)); 


} 


List<Tuple2<String, Boolean>> blackListFromDB = 
blackListTuple; // 数 据 来 自 于 查询 的 黑 名 单 表 ， 并 且 映 射 
// 成 为 <String,Boolean> 


JavaSparkContext jsc = new JavaSparkContext 
(rdd.context () ) 


/** 

* 黑 名 单 的 表 中 只 有 userID, 但 是 如 果 要 进行 Join 操作 ,就 
* 必须 是 Key-Value， 所 以 这 里 我 们 需要 基于 数据 表 中 的 数据 产 
* 生 Key-Value 类 型 的 数据 集合 

a 

JavaPairRDD<String, Boolean> blackListRDD = jsc. 
parallelizePairs (blackListFromDB); 


黑 名 单 RDD 和 批 处 理 RDD 进行 左 关联 ， 过 滤 掉 黑 名 单 





从 数据 库 中 获取 黑 名 单 封装 成 RDD， 代 表 黑 名 单 的 RDD 的 实例 blackListRDD 和 Batch 
Duration 产生 的 RDD 进行 Join 操作 时 ， Batch Duration 产生 的 RDD 操作 的 时 候 肯 定 是 基于 


户 ID 进行 Join 的 ， 所 以 必须 把 adClickedStreaming ”transformToPair 传 入 的 RDD 进行 
mapToPair 操作 ， 将 其 转化 成 为 符合 格式 的 RDD。 之 前 ，KafkaUtils 调用 createDirectStream 
E 成 JavaPairInputDStream 类 型 的 adClickedStreaming ， adClickedStreaming 的 格式 为 
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Key-Value 键 值 对 <String，String>， 第 一 个 元 素 Key 键 值 为 Kafka 生成 的 键 值 ， 第 二 个 元 素 
Value 值 是 Spark Streaming 从 Kafka 中 读 取 的 一 行 行 的 数据 ， 我 们 对 RDD 使 用 mapToPair 











方法 ， 读 取 第 二 个 元 素 ， 即 广告 点 击 数据 ， 其 广告 点 击 的 数据 格式 为 timestamp、ip、userID、 
adID、province、city， 我 们 使 用 "\t" 分 隔 符 进行 切 分 ， 取 到 第 2 个 值 ， 即 用 户 ID， 并 且 将 用 
户 JID 作为 Key 值 , Value 值 仍 是 Spark Streaming 从 Kafka 中 读 取 的 一 行 行 的 数据 , 创建 生成 
JavaPairRDD<String, Tuple2<String, String>> rdd2Pair， 其 格式 为 《用户 DD， 每 行 广告 点 击 数 


据 ) 


传 入 的 RDD 进行 mapToPair 操作 转化 成 为 符合 格式 的 RDD 的 代码 。 


:了 
3 
4. 
5 
6 


J 
8 . 
9 


JavaPairRDD<String, Tuple2<String, String>> rdd2Pair= rdd.mapToPair (new 
PairFunction<Tuple2<String, String>,String, Tuple2<String, String>>() { 
@Override 
public Tuple2<String, Tuple2<String, String>> call (Tuple2<String, String>t) 
throws Exception { 
String userID = 七. 2.split("\t") [2]; 
return new Tuple2<String, Tuple2<String, 
String>> (userID, t); 
} 
1D); 


我 们 把 代表 黑 名 单 的 RDD 的 实例 blackListRDD 和 Batch Duration 产生 的 RDD 进行 Join 
操作 ， 准 确 地 说 是 进行 leftOuterJoin 左 关联 操作 。 也 就 是 说 ， 使 用 Batch Duration 产生 的 
rdd 和 代表 黑 名 单 的 RDD 的 实例 进行 leftOuterJoin 左 关联 操作 ， 如 果 两 者 都 有 内 容 ， 就 会 是 


true, 


否则 就 是 false; 我 们 要 留 下 的 是 leftOuterJoin 操作 结果 为 false 的 消息 记录 。 


将 rdd2Pair 与 blackListRDD 进行 左 关联 ， 创 建生 成 JavaPairRDD<String, 


Tuple2<Tuple2<String, String>, Optional<Boolean>>> joined。 其 中 ，joined RDD 的 每 
行 记录 的 第 一 个 元 素 v1._1( 即 Key 值 ) 为 用 户 ID， 第 二 个 元 素 v1. 2 ( 即 Value 值 ) 
为 一 个 元 组 Tuple2。 

第 二 个 元 素 Tuple2 v1. 2 中 第 一 个 元 素 v1. 2. 1 对 应 rdd2Pair 中 的 Tuple2<String, 
String>， 其 v1. 2. 1._1 中 第 一 个 元 素 Key 为 Kafka 生成 的 键 值 ， 其 v1. 2._1. 2 中 第 
二 个 元 素 Value 值 是 Spark Streaming 从 Kafka 中 读 取 的 一 行 行 的 数据 。 

第 二 个 元 素 Tuple2 v1. 2 中 第 二 个 元 素 v1. 2. 2 对 应 blackListRDD 中 的 
ODtonit<h oolein>; 即 blackListRDD 中 定义 的 布尔 值 是 否 为 黑 名 单 。Optional 是 可 
选 的 ，Batch Duration 产生 的 RDD 和 代表 黑 名 单 的 RDD 的 实例 进行 leftOuterJoin 
左 关联 操作 , 如 果 Batch ”Duration 产生 的 RDD 和 代表 黑 名 单 的 RDD 两 者 的 用 户 ID 
相等 , 则 Optional 值 存在 , 在 站 表 达 式 中 返回 tue; 如 果 Batch ”Duration 产生 的 RDD 
中 用 户 ID 左 关联 时 不 能 匹配 上 代表 黑 名 单 的 RDD 的 用 户 ID， 此 时 Optional 值 是 空 
值 ， 站 表达 式 返 回 false。 

















leftOuterJoin 左 关联 操作 及 黑 名 单 过 滤 代码 如 下 。 


Te 


pOND 
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JavaPairRDD<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> 
joined = rdd2Pair.leftOuterJoin (blackListRDD); 


JavaPairRDD<String, String> result = joined.filter( 
new Function<Tuple2<String, Tuple2<Tuple2< 
String, String>, Optional<Boolean>>>, 
Boolean>() { 
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ya @Override 
8. public Boolean call (Tuple2<String, Tuple2< 
Tuple2<String, String>, Optional<Boolean>>>v1) 

9 throws Exception { 

10. Optional<Boolean> optional = vl. 2. 2; 

I 

2 if(optional.isPresent () &&optional .get ()){ 

3 return false; 

14. } else { 

a return true; 

16. . 

这 

18 . 

了 9 }) .mapToPair( 

之 new PairFunction<Tuple2<String, Tuple2< 
Tuple2<String, String>,Optional<Boolean>>>, 
String, String>() { 

和 

2 @Override 

232 public Tuple2<String, String> calll( 

Za Tuple2<String, Tuple2<Tuple2<String, 

String>, Optional<Boolean>>> 七 ) 

2 throws Exception { 

26. // 待 办 事项 : 自动 生成 方法 存根 

2 return t. 2. 1 

28. } 

29. 有 

30 . 

3 号 return result; 

2 } 

335 DS 

34. 

上- 守 filteredadClickedStreaming.print (); 

EO 


上 述 代码 中 的 filteredadClickedStreaming printO 说 明 : 此 处 的 print 并 不 会 直接 触发 Job 
的 执行 ， 因 为 现在 的 一 切 都 在 Spark Streaming 框架 的 控制 下 ， 对 于 Spark Streaming 而 言 ， 
具体 是 否 触发 真正 的 Job 运行 是 基于 设置 的 Suration 时 间 间 隔 的 。 注 意 ，Spark Streaming 应 
用 程序 要 想 执 行 具体 的 Job, 对 Stream 就 必须 有 output Stream 操作 ， output Stream 有 很 多 类 
型 的 函数 触发 ， 类 print、saveAsTextFile、saveAsHadoopFiles 等 ， 最 重要 的 一 个 方法 是 
foreachRDD， 因 为 Spark Streaming 处 理 的 结果 一 般 都 会 放 在 Redis、DB、DashBoard 等 上 面 ， 
foreachRDD 主要 用 用 来 完成 这 些 功能 ， 而 且 可 以 随意 地 自 定义 具体 数据 到 底 放 在 哪里 ! 


16.6 动态 黑 名 单 基 于 数据 库 MySQL 的 真正 操作 代码 实战 


电 商 广告 点 击 综合 案例 中 动态 黑 名 单 的 入 库 ， 我 们 基于 MySQL 数据 库 来 实现 。 


16.6.1 MySQL 数据 库 操作 的 架构 分 析 





默认 情况 下 ,将 RDD 中 的 数据 插入 MySQL 中 是 一 条 条 地 插入 的 ， 也 就 是 说 ， 去 遍历 每 
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个 Partition 的 Iterator 中 的 每 条 记录 ， 每 次 都 要 建立 一 次 数据 库 的 链接 ， 当 我 们 使 用 
foreachRDD 的 时 候 ， 操 作 的 对 象 是 RDD， 然 后 我 们 使 用 rdd 的 foreachPartition， 此 时 操作 的 
对 象 是 分 区 Partition， 而 不 是 一 条 条 的 记录 。 也 就 是 说 ， 每 次 读 取 的 是 整个 分 区 Partition， 读 
取 数 据 时 效率 非常 高 ， 然 后 我 们 采用 executeBatch 的 方式 插入 或 者 更 新 数据 ， 此 时 也 是 数据 
库 更 加 高 效 的 链接 和 更 新 方式 .不 过 , 一 次 读 取 一 个 分 区 Partition 的 浆 端 是 有 可 能 内 存 OOM， 
所 以 此 时 需要 关注 内 存 的 使 用 。 

MySQL 数据 库 入 库 如 图 16-6 所 示 。 











RDD 


LL |] 
i 



































一 系列 的 Record 








MySQL 数 据 库 











图 16-6 MySQL 数据 库 入 库 


16.6.2 MySQL 数据 库 操作 的 代码 实战 


本 节 基 于 动态 黑 名 单 内 容 进 行 数据 库 MySQL 的 代码 实战 ， 包 括 三 部 分 ， 黑 名 单数 据 库 
查询 ， 插 入 黑 名 单 ， 插 入 、 更 新 用 户 广告 点 击 数据 等 内 容 。 


1，MySQL 数 据 库 操作 〈 黑 名 单数 据 库 查询 ) 


16.5.1 节 实 现 了 从 数据 库 中 获取 黑 名 单 封装 成 RDD 的 功能 。 这 里 进行 MySQL 数据 库 中 
黑 名 单数 据 库 查询 的 操作 。 

MySQL 数据 库 黑 名 单数 据 库 查 询 的 步骤 如 下 。 

(1) 获取 数据 库 连 接 器 JDBCWrapper getJDBCInstance()。 

(2) 执行 doQuery 查询 函数 ， 传 入 查询 的 SQL 语句 ， 这 里 查询 所 有 的 黑 名 单 ， 因 此 不 
需要 传 入 paramsList 参数 。 数 据 库 查询 的 结果 传 到 回调 函数 的 返回 值 result， 然 后 循环 遍历 
result 的 next 值 ， 通 过 getString(1) 获 取 到 黑 名 单数 据 。 











黑 名 单数 据 库 查询 代码 如 下 。 

1 final List<String> blackListNames = new ArrayList<String>(); 
2 JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance(); 
2 jdbcWrapper.doQuery ("SELECT * FROM blacklisttable", null, 
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new ExecuteCallBack() { 


4 

i @Override 

6 public void resultCallBack (ResultSet result) 
throws Exception { 


村 while (result.next()) { 

E 光 blackListNames.add (result .getString (1)); 

ge i 

30- } 

3 

二 ]) 7 

43 

La List<Tuple2<String, Boolean>> blackListTuple = 
new ArrayList<Tuple2<String, Boolean>>(); 

15% 

0 for (String name : blackListNames) { 

加 近 blackListTuple.add (new Tuple2<String, Boolean> 

(name, true)); 

8 } 

9 

208 List<Tuple2<String, Boolean>> blackListFromDB = 
blackListTuple; 

a 


2. MySQL 数 据 库 操作 (插入 黑 名 单 ) 


16.3.3 节 实 现 了 将 黑 名 单 写 入 到 黑 名 单数 据 表 的 功能 .MySQL 数据 库 操作 (插入 黑 名 单 ) 
比较 简单 ， 这 里 就 是 插入 一 个 用 户 ID。 我 们 定义 一 个 列表 blackList， 这 只 是 功能 性 的 实现 ， 
企业 级 对 任何 实体 的 封装 肯定 会 创建 一 个 JavaBean， 相 当 于 scala 中 的 case class。 然 后 while 
循环 遍历 Iterator 的 数据 ， 拿 到 一 批 黑 名 单数 据 ， 加 入 到 blackList。 

MySQL 数据 库 操 作 插入 黑 名 单 的 步骤 如 下 。 

(1) 获取 数据 库 连 接 器 JDBCWrapper getJDBCInstance()。 

(2) 批量 插入 Insert Batch，doBatch 函数 传 入 插入 的 SQL 语句 。 


:EE blackListUniqueuserIDtBasedOnHistory.foreachRDD (new Function<JavaRDD< 
String>, Void>() { 
让 > @Override 
加 public Void call (JavaRDD<String> rdd) throws Exception { 
3 rdd. foreachPartition (new VoidFunction<Iterator<String>>(){ 
5 @Override 
6. public void call (Iterator<String> t) throws Exception 
{ 
Ts // 定 义 一 个 列表 
: 售 List<Object[]> blackList = new ArrayList< 
Object[]>(); 
性 while (t.hasNext()) { //while 循环 遍历 
Oe blackList.add (new Object[]{ (Object)t.next()}); 
于 下 } 
2 // 获 得 数据 库 连接 器 
3 JDBCWrapper jdbcWrapper = JDBCWrapper .getJDBCInstance (); 
A // 批 量 插入 数据 
3 jdbcWrapper.doBatch ("INSERT INTO blacklisttable VALUES 
(i blackbist)s 
16 . } 
ry 站 
8s return null; 


“09 


中 篇 “商业 案例 








9。 } 
20. DD); 


3. MySQL 数 据 库 操作 插入、 更 新 用 户 广 告 点 击 数 据 ) 


在 16.2 节 电 商 广 告 点 击 综合 案例 在 线 点 击 统计 实战 中 , 须 实现 将 用 户 在 线 广告 点 击 的 数 
据 持 久 化 保存 到 MySQL 数据 库 中 。 这 里 ， 我 们 使 用 数据 库 连 接 池 的 高 效 读 写 数据 库 的 方式 
把 数据 写 入 数据 库 MySQL。 由 于 传 入 的 参数 是 一 个 Iterator 类 型 的 集合 ， 所 以 为 了 更 加 高 效 
地 操作 ， 我 们 需要 批量 处 理 。 例 如 ， 一 次 性 插入 1000 条 Record， 使 用 insertBatch 或 者 
updateBatch 类 型 的 操作 ; 插入 的 用 户 信息 可 以 只 包含 timestamp、ip、userID、adID、province、 
city。 里 面 有 一 个 问题 : 可 能 出 现 两 条 记录 的 Key 是 一 样 的 ， 此 时 就 需要 更 新 累加 操作 。 

MySQL 数据 库 插入 在 线 广告 点 击 数据 的 具体 实现 如 下 。 

(1) 定 义 用 户 广 告 点 击 数据 UserAdClicked 的 JavaBean。 插入 的 用 户 信息 包含 timestamp、 
二、userID、adID、province、city， 我 们 定义 一 个 UserAdClicked 的 JavaBean， 用 于 存放 用 
户 广 告 点 击 的 数据 。 

UserAdClicked 的 JavaBean 代码 如 下 。 





本 class UserAdClicked implements Serializable { 
2 private String timestamp; 

3 private String ip; 

i private String userID; 

;人 private String adID; 

6 private String province; 

private String city; 

8 private Long clickedCount; 

9 


OE Q@Override 


1 public String toString() { 
3 return "UserAdClicked [timestamp=" + timestamp + ", ip=" + ip + 


", userID=" + userID + ", adID=" + adID+ ", province=" + province 
City=" + city + "clickedCount=" + clickedCount + “15 





3 
a } 
= 起 
本 public Long getClickedCount() { 
3 return clickedCount; 
组: 演 } 
9 
20. public void setClickedCount (Long clickedCount) { 
这 和 this.clickedCount = clickedCount; 
2 } 
Ee 
24. public String getTimestamp() { 
2 return timestamp; 
2 } 
Ze 
28> public void setTimestamp (String timestamp) { 
9 this.timestamp = timestamp; 
305 } 
二 
2 public String getIp() { 
3 return ip; 
SA } 
3 


se 
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365 public void setIP (String ip) { 

9 this ip = 1D? 

38 . } 

39. 

40. public String getUserID() { 

41. return userID; 

42. } 

43. 

44. public void setUserID(String userID) { 
上 this.userID = userID; 

46. } 

47. 

48. public String getAdID() { 

49. return adID; 

50. } 

SE 

5 public void setAdID(sString adID) { 
53% this.adID = adID; 

54. } 

55 

S56 public String getProvince() { 

SE return province; 

58. } 

S95 

6D- public void setProvince (String province) { 
615 this.province = province; 

62. } 

63. 

64. public String getCity() { 

5 return city; 

66. } 

浊 名 

68 . public void setCity(String city) { 
69 . this.city = city; 

70. } 

Ti 

Ns 


(2) 对 fteredClickInBatch 使 用 foreachRDD 算 子 ， 将 foreachRDD 中 用 户 广告 点 击 记录 
持久 化 到 MySQL 数据 库 中 。filteredClickInBatch 每 行 数据 记录 的 格式 为 Key-Value: Key 值 
为 组 拼 的 广告 点 击 记录 clickedRecord(timestamp_ip_userID_adID_province_city), Value 值 为 汇 
聚 的 广告 点 击 次 数 。 对 filteredClickInBatch 进行 foreachRDD 函数 触发 , 将 filteredClickInBatch 
每 行 记录 的 第 一 个 元 素 record._1 按 " "进行 分 割 , 提取 出 timestamp、ip、userID、adID、province、 
city，ClickedCount 各 个 字段 ， 并 在 数据 表 中 查询 表 广 告 点 击 adclicked， 如 果 广 告 点 击 表 中 
没有 用 户 的 点 击 记 录 ， 则 插入 ， 如 果 广 告 点 击 表 中 己 经 有 用 户 的 广告 点 击 记 录 ， 则 更 新 
数据 。 

具体 实现 如 下 : 

(1) 将 filteredClickImBatch 每 行 记录 的 第 一 个 元 素 record._1 按 " "分 割 , 提 取出 timestamp、 
ip、userID、adID、province、city，ClickedCount 各 个 字段 ， 存放 到 UserAdClicked 的 Javabean 
数据 结构 中 ， 然 后 循环 遍历 用 户 广告 点 击 数 据 ， 放 入 到 List<UserAdClicked> 类 型 列表 
UserAdClicked 。 

(2) 根据 时 间 、 用 户 ID、 广 告 DD 在 MySQL 数据 库 进 行 点 击 次 数 查 询 。 





3 
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口 获取 数据 库 连 接 器 JDBCWrapper getJDBCInstance()。 
口 执行 Qi 查询 函数 ， 传 入 查询 的 SQL 语句 ， 传 入 的 paramsList 参数 为 时 间 、 用 
告 ID。 将 数据 库 查 询 的 结果 传 到 回调 函数 的 返回 值 result， 然 后 循环 过 历 
result 的 next 值 ， 通 过 getString(1) 获 取 到 黑 名 单数 据 。 
(3) 根据 数据 库 广 告 点 击 查 询 的 结果 result， 将 用 户 广 告 点 击 数 据 分 成 两 类 。 
第 一 类 : 需 更 新 的 数据 ，List<UserAdClicked> updating， 把 从 数据 库 中 能 查询 到 的 数据 
UserAdClicked clicked 放 入 到 updating 列表 。 
第 二 类 : 需 插 入 的 数据 ，List<UserAdClicked> inserting， 若 从 数据 库 中 查询 不 到 记录 ， 
就 将 UserAdClicked clicked 放 入 到 inserting 列表 。 
根据 数据 库 查 询 的 结果 进行 数据 分 类 ， 代 码 如 下 。 
:人 filteredClickInBatch.foreachRDD (new Function<JavaPairRDD<String, 
Long>, Void>() { 


rs 


了 
14. 


Se 
UGE 
的 
18. 
有 
20> 
之 下 < 
这 
2 
24. 
5 
26- 
2 
5: 后 
29 
30. 
3E: 
S22 


“a 





@Override 


public Void call (JavaPairRDD<String, Long> rdd) throws 


Exception { 
if (rdd.isEmpty()) { 


rdd.foreachPartition(new VoidFunction<Iterator<Tuple2< 


String, Long>>>() { 
@Override 


publicvoidcall a Long>> partition) 


throws Exception { 


/it# 这 里 我 们 使 用 数据 库 连 接 池 的 高 效 读 写 数据 库 的 方式 把 数据 写 


* ”入 数据 库 MySQL; 


关 关 六 半 关 关 


2 需要 更 新 累加 操作 
来 


由 于 传 入 的 参数 是 一 个 Iterator 类 型 的 


集合 ， 所 以 为 了 更 加 高 效 地 哲 作 ， 我 们 需要 批量 处 理 。 例 如 ， 
一 次 性 插入 1000 条 Record， 使 用 insertBatch 或 者 
updateBatch 类 型 的 操作 ; 插入 的 用 户 信 息 可 以 只 包含 这 
timestamp、ip、userID、adID、province、city, 这 


里 面 有 一 个 问题 : 可 能 出 现 两 条 记录 的 Key 是 一 样 的 ， 此 时 就 


List<UserAdClicked> userAdClickedList = new 
ArrayList<UserAdClicked> (); 


while (partition.hasNext()) { 
Tuple2<String, Long> record = partition.next(); 


String[] splited = record. 1.split(™" "); 
UserAdClicked userClicked = new UserAdClicked(); 


userClicked. 
userClicked. 
userClicked. 
userClicked. 
userClicked. 
userClicked. 


setTimestamp (splited[0]); 
setIp(splited[1]); 
setUserID(splited[2]); 
setAdID(splited[3]); 
setProvince (splited[4]); 
setCity(splited[5]); 


userAdClickedList.add (userClicked); 


} 


final List<UserAdClicked> inserting = new ArrayList< 
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UserAdClicked>(); 
final List<UserAdClicked> updating = new ArrayList< 
UserAdClicked>(); 


JDBCWrapper jdbcWrapper = JDBCWrapper. getJDBC 
Instance (); 


// 点 击 
// 表 的 字段 : timestamp、ip、userID、adID、province、 city、 
//clickedCount 
for (final UserAdClicked clicked : userAdClickedList){ 
jdbcWrapper.doQuery( 
"SELECT count (1) FROM adclicked WHERE " 
+ " timestamp = ? RND userID 
= 2 RND adID = 2", 
new Object[] { clicked.getTimestamp () ， 
clicked.getUserID() ,clicked.getadqID() }， 
new ExecuteCallBack() { 


@Override 
public void resultCallBack (ResultSet 
result) throws Exception { 


if (result.getRow() != 0) { 
long count = result.getLong(1); 
clicked.setClickedCount (count); 
updating.add (clicked); 


} else { 
clicked.setClickedCount (0L); 
inserting.add (clicked); 


1) 


} 
(4) 按照 用 户 广 告 点 击 的 两 类 数据 分 别 执行 数据 库 操作 。 


第 一 类 : 在 MySQL 数据 库 中 更 新 数据 。 
口 循环 遍历 updating 列表 ， 取 出 UserAdClicked inserRecord 中 的 时 间 、 用 户 瑟 、 用 户 


ID、 告 D、 
口 执行 doBatch 


省 份 、 城 市 、 点 击 次 数 放 入 到 SQL 参数 列表 insertParametersList。 
批 处 理 函 数 ， 传 入 更 新 的 SQL 语句 ， 根 据 传 入 的 paramsList 参数 更 新 


时 间 、 用 户 卫 、 用 户 ID、 广 告 ID、 省 份 、 城 市 、 点 击 次 数 等 用 户 广告 点 击 数据 。 
第 二 类 : 在 MySQL 数据 库 中 插入 数据 。 


口 循环 遍历 inse 
ID、 广 告 思 、 
口 执行 doBatch 


rting 列表 ， 取 出 UserAdClicked inserRecord 中 的 时 间 、 用 户 瑟 、 用 户 
省 份 、 城 市 、 点 击 次 数 放 入 到 SQL 参数 列表 insertParametersList。 
批 处 理 函 数 ， 传 入 插入 的 SQL 语句 ， 传 入 的 paramsList 参数 为 时 间 、 














用 户 瑟 、 用 户 IDP、 广 告 一 、 省 份 、 城 市 、 点 击 次 数 ， 插 入 用 户 广 告 点 击 数据 。 








按照 用 户 广 告 点 击 的 两 类 数据 分 别 执行 数据 库 操作 代码 。 
1. //adclicked 
2 // 表 的 字段 : timestamp、ip、userID、adID、province、 city、clickedCount 


3. // 在 MySsQL 数据 库 中 插入 数据 


0334 
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30. i 


ArrayList<Object[]> insertParametersList = new 

ArrayList<Object[]>(); 

for (UserAdClicked inserRecord : inserting) { 

insertParametersList.add (new Object[] { inserRecord. 
getTimestamp(), inserRecord.getIp(), 

inserRecord.getUserID(), inserRecord. 
getAdID(), inserRecord.getProvince(), 
inserRecord.getCity(), inserRecord. 
getCclickedCount () }); 

} 

jdbcWrapper.doBatch ("INSERT INTO adclicked 

VALUES (?,?,?,?,?,?,?)", insertParametersList); 


// 点 击 
// 表 的 字段 : timestamp、ip、userID、adID、province、 
//city、 clickedCount 
// 在 MySQL 数据 库 中 更 新 数据 
ArrayList<Object[]> updateParametersList = new 
ArrayList<Object[]>(); 
for (UserAdClicked updateRecord : updating) { 
updateParametersList .add (new Object[] {updateRecord. 
getTimestamp(), updateRecord.getIp(), 
UpdateRecord.getUserID(), updateRecord. 
getadID () ,updateRecord.getProvince () ， 
updateRecord.getCity (), updateRecord. 
getClickedCount () }); 
} 
jdbcWrapper .doBatch ("UPDATE adclicked set 
clickedCount = ? WHERE " 
+ " timestamp = ? AND ip = ? AND userID 
= ? AND adID = ? AND province = ? " 
+ "AND city = ? ", updateParametersList); 


return null; 


16.7 通过 updateStateByKey 等 实现 广告 点 击 


流量 的 在 线 更 新 统计 


在 16.2 节 电 商 广告 点 击 综合 案例 在 线 点 击 统计 实战 中 , 我 们 使 用 reduceByKey 算 子 计 算 
的 是 每 一 个 批 处 理 时 间 Batch Duration 中 每 个 User 的 广告 点 击 量 。 我 们 要 不 断 在 Spark 


Streaming 历史 的 基础 上 过 





F 行 更 新 ,这 时 就 需要 updateStateByKey。updateStateByKey 遵循 RDD 


的 不 变性 , 采样 的 是 cogroup 的 方式 ，cogroup 方式 是 根据 Key 对 数据 进行 聚合 操作 ， 每 次 操 
作 时 都 要 进行 全 量 的 扫描 ， 随 着 时 间 的 推移 ， 其 性 能 会 越 来 越 差 。 可 能 在 开始 的 时 候 ，Spark 
Streaming 每 个 Batch Duration 处 理 进行 updateStateByYKey， 响 应 时 间 是 5 s， 过 一 天 就 会 发 现 
变 成 1 min 了 。 所 以 ，Spark 1.6.X 推出 了 MapWithState，MapWithState 是 实验 性 的 AP， 

MapWithState 遵循 RDD 的 不 变性 ， 其 是 基于 一 个 数据 结构 ， 数 据 结构 不 变 ， 但 里 面 的 内 容 


.634 
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一 
JJ 


在 本 


节 中 ， 我 们 基于 updateStateByKey 等 实现 广告 点 击 流量 的 在 线 更 新 统计 ， 这 是 在 生 


日 MapWithState 的 内 存 类 似 于 HashMap， 在 历史 的 基础 上 进行 更 新 。 





产 环境 中 的 应 用 方式 。 以 后 在 Spark 2.0 中 ，MapWithState 方式 更 加 成 熟 。 











电 





问 





霄 广告 点 击 综合 案例 中 广告 点 击 累 计 动 态 更 新 ， 每 个 updateStateByKey 都 会 在 Batch 


Duration 时 间 间 隔 的 基础 上 进行 点 击 次 数 的 更 新 ， 更 新 之 后 我 们 一 般 都 会 持久 化 到 外 部 存储 
设备 上 ， 在 这 里 我 们 存储 到 MySQL 数据 库 中 。 

(1) 定义 用 户 广告 点 击 数据 AdClicked 的 JavaBean。AdClicked 的 用 户 信息 包含 时 间 、 
广告 ID、 省 份 、 城 市、 点 击 次 数 (timestamp、adID、province、city、clickedCount) ， 用 于 


存放 


告 点 击 累计 动态 更 新 的 用 户 广告 点 击 数据 。 


AdClicked 的 JavaBean 代码 如 下 。 


加 oawm 必 wm 


©O" 





oawm 必 wb 


class AdClicked implements Serializable { 


private String timestamp; 
private String adID; 
private String province; 
private String city; 
private Long clickedCount; 


Q@Override 

public String toString() { 
return "AdClicked [timestamp="+ timestamp + ", adID=" + adID+ ", 
province=" + province + ", city=" + city +", clickedCount="+ 
clickedCount + "]"; 

} 


public String getTimestamp() { 
return timestamp; 


} 


public void setTimestamp (String timestamp) { 
this.timestamp = timestamp; 


|: 


public String getAdID() { 
return adID; 


} 


public void setAdID(String adID) { 
this.adID = adID; 
} 


public String getProvince() { 
return province; 


| 


public void setProvince (String province) { 
this.province = province; 


上 
public String getCity() { 
return city; 


} 


public void setCity(String city) { 
this.city = city; 


二 
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43 . } 

44. 

45. public Long getClickedCount() { 

46. return clickedCount; 

7 

48 . 

49 . public void setClickedCount (Long clickedCount) { 
50. this.clickedCount = clickedCount; 
SE } 

与 2 

53. 3} 











(2) 使 用 updateStateByKey 算 子 进行 广告 点 击 累计 动态 更 新 。 

电 商 广告 点 击 综合 案例 在 线 点 击 统计 实战 中 ，KafkaUtils 调用 createDirectStream 生成 
JavaPairInputDStream 类 型 的 adClickedStreaming，adClickedStreaming 经 过 黑 名 单 的 动态 过 滤 
以 后 ， 转 换 生 成 JavaPairDStream<String，String> 类 型 的 filteredadClickedStreaming 。 
filteredadClickedStreaming 的 格式 为 Key-Value 键 值 对 <String，String>，Key 为 Kafka 生成 的 
key 值 ，Value 值 是 Spark Streaming 从 Kafka 中 读 取 的 一 行 行 的 数据 。 

@ 对 filteredadClickedStreaming 每 进行 mapToPair 转换 ， 其 每 行 数据 的 第 二 个 元 素 t._2 
是 park Streaming 从 Kafka 中 读 取 的 一 行 行 的 数据 ， 按 照 分 隔 符 "\t" 对 每 行 的 数据 进行 切 分 ， 
分 别 取 出 时 间 、 了 王 、 用 户 了 、 广 告 D、 省 份 、 城 市 等 信息 ， 然 后 将 其 重新 组 拼 成 
clickedRecord(timestamp_adID province city) ， 形 成 Key-Value 键 值 对 。Key 值 为 
clickedRecord(timestamp_adID province_city)，Value 为 计算 1 次 。 

@ 使 用 updateStateByKey 算 子 进行 广告 点 击 累计 动态 更 新 。 updateStateByKey 的 传 入 参 
数 是 一 个 函数 Function2 ，Function2 的 第 一 个 参数 List<Long> vl 代表 当前 
Key(timestamp_adID_province_city) 在 当前 的 Batch Duration 中 出 现 次 数 的 集合 ， 例 如 
{1,1,1,1,1,1} ; Function2 的 第 二 个 参数 Optional<Long> v2 代表 当前 Key(timestamp 
adID_province_city) 在 以 前 的 Batch ”Duration 中 积累 下 来 的 结果 。Function2 的 返回 结果 是 
Optional<Long>>， 即 动态 更 新 累计 的 状态 值 。 

其 中 ，v2 类 型 是 可 选 的 Optional<Long>。 

口 如 果 Key 值 在 以 前 的 Batch ”Duration 中 没 出 现 过 , v2 值 不 存在 , 默认 定义 累计 次 数 

clickedTotalHistory 等 于 0 次 。 

口 如 果 Key 值 在 以 前 的 Batch Duration 中 存在 ， 那 就 由 v2.get0 获 取 到 以 前 的 Batch 

Duration 中 积累 下 来 的 结果 ， 再 循环 遍历 v1 中 的 元 素 , 将 当前 的 Batch Duration 批 
处 理 中 Key 值 出 现 的 次 数 , 在 以 前 的 Batch ”Duration 中 积累 下 来 的 结果 的 基础 上 进 
行 累加 ， 最 终 返 回 动态 累计 更 新 的 广告 点 击 次 数 ， 创 建生 成 JavaPairDStream<String, 
Long> updateStateByKeyDStream。 
使 用 updateStateByKey 算 子 进行 广告 点 击 累计 动态 更 新 。 
省 /可 村 
* 广告 点 击 累计 动态 更 新 ， 每 个 updateStateByKey 都 会 在 Batch Duration 的 
* 时 间 间 隔 的 基础 上 进行 更 高 点 击 次 数 的 更 新 ， 更 新 之 后 ， 我 们 一 般 都 会 持久 化 到 外 


* 部 存储 设备 上 ， 这 里 我 们 存储 到 MySQL 数据 库 中 
六 




















mn 心 ww 


JavaPairDStream<String，Long> updateStateByKeyDStream = 


“6 
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filteredadClickedStreaming 
6. -mapToPair (new PairFunction<Tuple2<String, String>, 
String, Long>() { 


y 

8. @Override 

9. public Tuple2<String, Long> call (Tuple2<String, 
String> 七 ) throws Exception { 

1 String[] splited = t. 2.split("\t"); 

下。 String timestamp = splited[0]; // yyyy-MM-dd 

I String ip = splited[1]; 

I String userID = splited[2]; 

a String adID = splited[3]; 

se String province = splited[4]; 

16. String city = splited[5]; 

全 String clickedRecord = timestamp + " " + adID + 

nt DroOvinoe by GE 

Le return new Tuple2<String, Long> (clickedRecord, 1L); 

了 和 } 

208 }) .updateStateBYKey (new Function2<List<Long>, Optional<Long>, 

Optional<Long>>() { 

:时 

及 2 @Override 

ek public Optional<Long> call(List<Long> v1, Optional< 
Long> v2) throws Exception { 

24. /** 

25. *V1 :代表 当前 Key 在 当前 的 Batch ”Duration 中 出 现 次 

* 数 的 集合 ， 如 {1,1,1,1,1,1} 

26. *V2: 代 表 当前 Key 在 以 前 的 Batch Duration 中 积累 下 来 的 结果 

Ss */ 

2 Long clickedTotalHistory = 0L; 

29. if (v2.isPresent()) { 

305 clickedTotalHistory = v2.get(); 

当下 < } 

过 for (Long one : v1) { 

S33 clickedTotalHistory += one; 

34. : 

Se return Optional.of (clickedTotalHistory); 

36: | 

7 由 用 


(3) 广告 点 击 累计 动态 更 新 的 MySQL 数据 库 入 库 操作 。 
updateStateByKeyDStream 使 用 foreachRDD 算 子 遍 历 每 一 个 RDD， 然 后 rdd 使 用 


foreachPartition 方法 对 每 个 分 区 的 元 
记录 的 第 一 个 元 素 record._1 按 "_"i 











进行 数据 库 操作 。 将 updateStateByKeyDStream 每 行 





行 分 制 ， 提 取出 timestamp、adID、province、city 各 个 字 


段 ;updateStateByKeyDStream 每 行 记录 的 第 二 个 元 素 record. 2( 即 累计 点 击 次 数 ClickedCount 
字段 ) ， 存 放 到 AdClicked 的 Javabean 数据 结构 中 ， 然 后 循环 遍历 用 户 广 告 点 击 数据 放 入 到 
List< AdClicked> 类 型 的 列表 adClicked 中 。 

然后 根据 timestamp、adID、province、city 在 MySQL 数据 库 进行 点 击 次 数 查询 ， 分 别 进 


行 数据 更 新 、 数 据 插入 操作 。 


广告 点 击 累计 动态 更 新 的 MySQL 数据 库 入 库 操作 代码 如 下 。 


1. updateStateBYKeyDStream. foreachRDD (new Function<JavaPairRDD<String, 


Long>, Void>() { 
2 @Override 


public Void call (JavaPairRDD<String, Long> rdd) throws 


“637 < 
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4D 


“038 


Exception { 
rdd. foreachPartition (new VoidFunction<Iterator<Tuple2< 
String, Long>>>() { 


@Override 
public void call (Iterator<Tuple2<String, Long>> 
partition) throws Exception { 


这 里 我 们 使 用 数据 库 连 接 池 的 高 效 读 写 数据 库 的 方式 把 数据 写 入 数据 库 MySQL; 

由 于 传 入 的 参数 是 一 个 Iterator 类 型 的 集合 ， 所 以 为 了 更 加 高 效 地 操作 ， 我 们 需要 批量 处 理 ， 
例如 , 一 次 性 插入 1000 条 Record, 使 用 insertBatch 或 者 updateBatch 类 型 的 操作 ; 
* 插入 的 用 户 信息 可 以 只 包含 timestamp、adID、province、 city 

* 这 里 面 有 一 个 问题 : 可 能 出 现 两 条 记录 的 Key 一 样 ， 此 时 就 需要 更 新 累加 操作 

区 


/** 


关 


% 


% 


List<AdClicked> adClickedList = new ArrayList<AdClicked>(); 


while (partition.hasNext()) { 
Tuple2<String, Long> record = partition.next (); 


String[] splited = record. 1.split(" "); 


AdClicked adClicked = new AdClicked(); 
adClicked.setTimestamp (splited[0]); 
adClicked.setAdID (splited[1]); 
adClicked.setProvince (splited[2]); 
adClicked.setCity (splited[3]); 
adClicked.setClickedCount (record. 2); 


adClickedList.add(adClicked); 


} 
JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance(); 


final List<AdClicked> inserting = new ArrayList<AdClicked>(); 
final List<AdClicked> updating = new ArrayList<AdClicked>(); 


// 点 击 
// 表 的 字段 : timestamp、ip、userID、adID、 province、 city、 clickedCount 
for (final AdClicked clicked : adClickedList) { 
jdbcWrapper.doQuery( 
"SELECT count (1) FROM adclickedcount WHERE " 
+ " timestamp = ? AND adID = ? AND 
province = ? AND city = ? ", 
new Object[] {clicked.getTimestamp () clicked. 
getAdID(), clicked.getProvince(), 
clicked.getCity()}, 
new ExecuteCallBack() { 


@Override 
public void resultCallBack (ResultSet result) throws Exception { 
if (result.getRow() != 0) { 


long count = result.getLong (1); 
Clicked.setClickedCount (count); 
updating.add (clicked); 

} else { 
inserting.add (clicked); 
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} 
// 点 击 
// 表 的 字段 : timestamp、ip、userID、adID、 province、 city、 clickedCount 
ArrayList<Object[]> insertParametersList = new ArrayList< 
Object[]>(); 
for (AdClicked inserRecord : inserting) { 
insertParametersList.add (new 


Object[] {inserRecord.getTimestamp(), inserRecord.getAdID(), 
64. 


G5 
66. 


G7 
68. 
69. 
Os 


yh 
人 


了 虑 汪 


74. 
5 
Gr 
Es 


a 
了 95 
80 . 
81. 
Bs 
83. 


inserRecord.getProvince(), inserRecord.getCity(), inserRecord. 
getClickedCount ()}); 
} 
jdbcWrapper .doBatch ("INSERT INTO adclickedcount 
VALUES (?,?,?,?,?)", insertParametersList); 


// 点 击 
// 表 的 字段 : timestamp、ip、userID、adID、 province、 city、clickedCount 
ArrayList<Object[]> updateParametersList = new ArrayList< 
Object[]>(); 
for (AdClicked updateRecord : updating) { 
updateParametersList.add (new Object[] {updateRecord. 
getClickedCount () ， 
updateRecord.getTimestamp (), updateRecord.getAdID(), updateRecord. 
getProvince(),updateRecord.getCity()}); 


} 
jdbcWrapper .doBatch ( 
"UPDATE adclickedcount set clickedCount = ? 
WHERE "+ " timestamp = ? AND adID = ? RND 
province = ? AND city = ? ",updateParametersList); 


} 
1D); 
return null; 
} 
]) 7 


16.8 ”实现 每 个 省 份 点 击 排名 Top5 广告 


电 商 广告 点 击 综合 案例 实现 每 个 省 份 广告 点 击 排名 Top5。 在 广告 点 击 排名 中 ,可 以 按 省 


份 排名 ， 也 可 





按 不 同 的 区 进 


以 按 城市 排名 ， 在 上 海 市 可 以 按照 不 同 的 区 进行 划分 ， 如 浦东 区 、 静 安 区 等 ， 
行 细 分 排名 ，TopN 排名 代码 的 思路 是 一 样 的 。 也 可 以 进行 多 维度 的 划分 ， 即 





所 谓 的 二 次 排序 ， 这 个 意义 非常 重要 ， 我 们 看 广告 点 击 的 TopN， 看 哪些 广告 受 人 欢迎 ， 对 
于 广告 策略 的 调整 或 者 公司 的 营销 非常 重要 ， 广 告 点 击 的 TopN 排名 对 于 互联 网 和 电 商 非常 

重要 ， 因 为 大 部 分 的 收入 来 自 于 广告 。 在 实际 的 生产 环境 下 ， 我 们 一 般 会 进行 二 次 排序 ， 二 
次 排序 不 是 排序 2 次 就 行 了 ， 可 能 进行 3 个 维度 ，4 个 维度 ， 甚 至 10 个 维度 的 排序 ， 这 些 都 








是 2 次 排序 。 





本 节 实 现 每 天 每 个 省 份 Top5 的 广告 点 击 排名 。 


(1) 定义 用 户 不 同 省 份 Tops 的 广告 点 击 排名 数据 AdProvinceTopN 的 JavaBean 。 
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中 篇 “商业 案例 








AdProvinceTopN 的 用 户 信息 包含 时 间 、 广告 D、 省 份 、 点 击 次 数 (timestamp、adID、province、 
clickedCount) ， 用 于 存放 用 户 不 同 省 份 Top5 的 广告 点 击 排名 数据 。 
AdProvinceTopN 的 JavaBean 代码 如 下 。 








本 class AdProvinceTopN ”implements Serializable { 
2 private String timestamp; 

三 站 private String adID; 

4. 

i public String getTimestamp() { 

Gs return timestamp; 

了 

8. 

9. public void setTimestamp (String timestamp) { 
10. this.timestamp = timestamp; 

Ls 

:人 

了 3 public String getAdID() { 

14. return adID; 

5 

5 

zy public void setAdID(String adID) { 

18 this.adID = adID; 

19% 

芝 

Zs public String getProvince() { 

2 return province; 

这 各 

24 

2 public void setProvince (String province) { 
26. this.province = province; 

全 

Ss 

29. public Long getClickedCount() { 

30- return clickedCount; 

i } 

Se 

33e public void setClickedCount (Long clickedCount) { 
34. this.clickedCount = clickedCount; 

三 生 二 

0 

3 private String province; 

386. 

39. private Long clickedCount; 

A0. 3} 


(2) 在 广告 点 击 累计 动态 更 新 updateStateByKeyDStream 的 基础 上 进行 transform 转换 。 
updateStateByKeyDStream 的 每 行 数据 的 Key 值 t_1 按 “_” 进 行 切 分 , 提取 出 时 间 、 广告 人 D 
省 份 按 "" 重 新 组 拼 成 timestamp_adID_province; 每 行 数据 的 Value 值 t_2 是 累计 动态 更 新 的 
计数 值 。 if 生成 Key-Value 键 值 对 (clickedRecord, t_ 2) ， 然 后 使 用 reduceByKey 算 子 汇 
总 统计 某 时 间 、 某 省 份 的 广告 点 击 次 数 。 

接 下 来 使 用 map 转换 ， 目 的 是 生成 一 行 行 的 JavaRDD<Row> 数据 。 实 现 也 很 简单 ， 将 
上 述 汇 总 的 某 时 间 、 某 省 份 的 广告 点 击 次 数 重新 拆 分 ，v1._1 按 “_ ”进行 切 分 ， 提 取 时 间 、 

告 D、 省 份 字段 ; v1._ 2 为 汇总 的 点 击 次 数 ， 然 后 使 用 RowFactory.create(timestamp, adID， 
province, v1. 2) 就 创建 生成 了 行 数据 : JavaRDD<Row> rowRDD。 

广告 点 击 累计 动态 更 新 数据 转换 生成 Row 行 数据 代码 。 
































。640 。 


第 16 章 电 商 广告 点 击 大 数据 实时 流 处 理 系 统 案 例 








1. updateStateByKeyDStream.transform (new Function<JavaPairRDD<String, Long>, 
JavaRDD<Row>>() { 


人 
@Override 
光 5 public JavaRDD<Row> call (JavaPairRDD<String, Long> rdd) throws 
Exception { 
6- JavaRDD<Row> rowRDD = rdd.mapToPair (new PairFunction< 
Tuple2<String, Long>, String, Long>() { 
Rs 
8. @Override 
9. public Tuple2<String, Long> call (Tuple2<String, Long> t) 
throws Exception { 
10. Strinalll splited! = Es 1 splLE( "ys 
人 String timestamp = "2016-07-10"; // yyyy-MM-dd 
和 String adID = splited[1]; 
3 String province = splited[2]; 
FE String clickedRecord = timestamp + " " + adID+"" 
+ province; 
L595 return new Tuple2<String, Long> (clickedRecord, t. 2); 
16. } 
ET 总 }) .reduceByKey (new Function2<Long, Long, Long>() { 
18 . 
和 @Override 
205 public Long call (Long v1，Long v2) throws Exception { 
2 // 待 办 事项 : 自动 生成 方法 存根 
2 return v1 + v2; 
23< } 
24. }) .map (new Function<Tuple2<String, Long>, Row>() { 
之 
这 和 @Override 
Zh public Row call (Tuple2<String, Long> v1) throws Exception { 
BS Strzing[ splited = wvIs 1.split(™ ~)s 
9 String timestamp = "2016-07-10"; // yyyy-MM-dd 
90 String adID = splited[1]; 
E 上 String province = splited[2]; 
2 return RowFactory.create (timestamp, adID, province, 
A a 
3 } 
34. ]) 7 


(3) 创建 df: 结合 rowRDD 和 structType 的 元 数据 信息 ,基于 RDD 创建 df (hiveContext. 
createDataFrame(rowRDD, structType)) 。 然 后 ，hiveContext 使 用 开 窗 函数 进行 TopN 的 查询 。 
DataFrame 的 创建 及 开 窗 函数 进行 TopN 的 查询 代码 如 下 。 
StructType structType = DataTypes .createStructTYype( 


1 
pt Arrays.asList (DataTypes.createstructField ("timstamp", 
DataTypes.StringType, true), 


人 DataTypes.createstructField("adID", DataTypes.SstringType, true), 
4. DataTypes .createSstructField("province", DataTypes.SstringType, true), 
上 S 间 DataTypes.createStructField("clickedCount", DataTypes.LongType, true))); 
6 

计 HiveContext hiveContext = new HiveContext (rdd.context ()); 
8. 

9. DataFrame df = hiveContext.createDataFrame (rowRDD, structType); 
FE 

ls df.registerTempTable ("topNTableSource"); 


12. // 开 窗 函 数 进行 TopN 的 查询 


. 641 。 
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i 过 String IMFsqlText = "SELECT timstamp,adID,province, 
clickedCount FROM" +" (SELECT timstamp,adID,province, 
clickedCount, row number() " 


二 和 + " OVER ( PARTITION BY province ORDER BY clickedCount DESC)rank " 
了 + " FROM topNTableSource ) subquery " + " WHERE rank <= 5 "7 

16. 

Se DataFrame result = hiveContext.sql (IMFsqlText); 

48. 

9 return result.toJavaRDD(); 

20: 

2 } 


(4) 将 每 个 省 份 Province 广告 点 击 排名 Top5 的 数据 保存 到 MySQL 数据 库 , 提供 后 续 进 
行 Java EE 的 查询 。 这 里 将 每 个 省 份 Province 广告 点 击 排名 Tops 的 数据 循环 遍历 到 
List<AdProvinceTopN> adProvinceTopN ， 使 用 set 集合 清理 掉 Timestamp_Province 重复 的 元 
素 ， 然 后 从 数据 库 中 删除 某 个 时 间 点 的 省 份 旧 的 排名 数据 ， 再 for 循环 遍历 插入 每 个 省 份 
Province 广告 点 击 新 的 排名 Top5 的 数据 。 数 据 库 操作 和 之 前 章节 的 操作 基本 一 样 , 这 里 不 再 


数据 库 MySQL 的 操作 代码 如 下 。 


: 属 }) .foreachRDD (new Function<JavaRDD<Row>, Void>() { 

“局 @Override 

4. public Void call (JavaRDD<Row> rdd) throws Exception { 

5 

7 rdd. foreachPartition (new VoidFunction<Iterator<Row>>() { 

了 人 

9< QQOverride 

9 public void call (Iterator<Row> 七 ) throws Exception { 

10 . 

Ts List<AdProvinceTopN> adProvinceTopN = new ArrayList< 
AdProvinceTopN> (); 

12. 

3 while (t.hasNext()) { 

14. Row row = t.next(); 

15: 

LT6e AdProvinceTopN item = new AdProvinceTopN(); 

全 item.setTimestamp (Tow.getString(0) ) 7 

18 . item- setRAdID (row.-getString(1) ) 

DE item.setProvince (row.getstring (2)); 

20. 

2 item.setClickedCount (row.getLong (3) ) ; 

222 

pe adProvinceTopN.add (item); 

24. } 

5 

26% JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance (); 

有 

285 Set<String> set = new HashSet<String> () 7 

2 for (AdProvinceTopN item : adProvinceTopN) { 

30. set.add (item.getTimestamp ()+" "+item.getProvince()); 

SE } 

32> 

Ses // 点 击 

:下 // 表 的 字段 : timestamp、ip、userID、adID、province、 city、 clickedCount 

SD ArrayList<Object[]> deleteParametersList = new ArrayList< 
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36; 
STs 
38; 
39. 
40. 


41. 
42. 
43. 
44. 
5 


46 . 
47. 


48 . 


EE 
50 . 


515 
S52: 
535 
54. 
Ss 


广告 点 击 Trend 趋势 对 于 投放 广告 的 效果 至 关 重 要 。 广 告 
析 用 户 的 心理 和 行为 特征 。 本 节 实 现 广 告 点 击 Trend 趋势 计算 实 | 


Object[]>(); 
for (String deleteRecord : set) { 
String[] splited = deleteRecord.split(" "); 
deleteParametersList.add (new Object[]{splited[0], splited[1]}); 
} 
jdbcWrapper .doBatch ("DELETE FROM adprovincetopn 
WHERE timestamp = ? AND province = 2", 
deleteParametersList); 


/ /不同 省 份 Top5 的 广告 点 击 排名 
// 表 的 字段 : timestamp、adID、province、clickedCount 
ArrayList<Object[]> insertParametersList = new 
ArrayList<Object[]>(); 
for (AdProvinceTopN updateRecord : adProvinceTopN) { 
insertParametersList.add (new Object[] {updateRecord. 
getTimestamp(), updateRecord.getAdID(), 
updateRecord.getProvince(), updateRecord. 
getClickedCount ()}); 
} 
jdbcWrapper .doBatch ("INSERT INTO adprovincetopn VALUES (?,2?,2,2) ", 
insertParametersList); 
} 
]}) 7 
return null; 
} 
ds 


16.9 ”实现 广告 点 击 Trend 趋势 计算 实战 





5 


4 击 Trend 趋势 也 可 以 用 来 分 





(1) 定义 广告 点 击 Trend 趋势 数据 AdTrendStat 的 JavaBean。AdTrendStat 的 用 户 信息 包 
含 日 期 、 小 时 、 分 钟 、 广 告 ID、 点 击 次 数 (date、hour、minute、adID、clickedCount) ， 用 
于 存放 广告 点 击 Trend 趋势 的 数据 。 

AdTrendStat 的 JavaBean 代码 如 下 。 


class AdTrendStat implements Serializable { 


private String date; 
private String hour; 
private String minute; 


public String get date() { 
return date; 


i 


Q@Override 
public String toString() { 
return "AdTrendStat [ date="+ date+", hour="+ hour+", minute 
=" + minute + ", adID=" + adID 
+ ", clickedCount=" + clickedCount + "™]"; 


D 


public void set_date (String date) { 
Ethies dale = "date 
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9 有 

19. 

和 20 public String get hour() { 

21s return hour; 

2 } 

23- 

4 public void set hour (String hour) { 
2 this. hour = hour; 

26. 

人 27 

2 public String get minute() { 

29. return minute; 

30. } 

3 下 

32> public void set minute(String minute) { 
333 this. minute = minute; 

34. 

3 

S06 public String getAdID() { 

ST return adID; 

38- 

9 

40 . public void setAdID(String adID) { 
41. this.adID = adID; 

42. 

43. 

44. public Long getClickedCount() { 

45. return clickedCount; 

46. 

47. 

48. public void setClickedCount (Long clickedCount) { 
49. this.clickedCount = clickedCount; 
SO 

i 

2 private String adID; 

三 3 Private Long clickedCount; 

54. } 


定义 广告 点 击 Trend 趋势 数据 的 历史 数据 AdTrendCountHistory 的 JavaBean 。 
AdTrendCountHistory 的 信息 包含 历史 点 击 次数 〈clickedCountHistory) ， 用 于 存放 广告 点 击 
Trend 趋势 的 历史 数据 。 

AdTrendCountHistory 的 JavaBean 代码 如 下 。 


class AdTrendCountHistory implements Serializable { 

private Long clickedCountHistory; 

public Long getClickedCountHistory() { 
return clickedCountHistory; 

} 

public void setClickedCountHistory (Long clickedCountHistory) { 
this.clickedCountHistory = clickedCountHistory; 

} 


co~awm 必 mw 


} 
(2) 算 子 reduceByKeyAndWindow 讲解 。 算 子 reduceByKeyAndWindow 根据 Key 值 及 
时 间 窗 口 进行 汇总 统计 ， 按 时 间 窗 口 长 度 、 滑 动 时 间 窗 口 进 行 统计 。 
reduceByKeyAndWindow 窗口 转换 操作 算 子 。 
口 第 一 个 参数 是 聚合 函数 。 
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口 第 二 个 参数 是 可 逆 聚 合 函 数 。 

口 第 三 个 参数 是 时 间 窗 口 长 度 windowDuration。 

口 第 四 个 参数 是 滑动 时 间 窗 口 slideDuration， 每 隔 多 长 时 间 滑 动 一 次 窗口 。 
reduceByKeyAndWindow 的 源码 如 下 。 


def reduceByKeyAndWindow( 
reduceFunc: JFunction2[V, V, V], 
invReduceFunc: JFunction2[V, V, V], 
windowDuration: Duration, 
slideDuration: Duration 
): JavaPairDstream[K, V] = { 
dstream.reduceByKeyAndWindow (reduceFunc, invReduceFunc, windowDuration, 
slideDuration) 
8. } 


下 面 看 一 个 采用 scala 语言 写 的 reduceByKeyAndWindow 代码 , 每 隔 2s 时 间 统 计 过 去 5s 
时 间 内 所 有 输入 数据 的 统计 信息 ， 滑 动 窗口 是 28s， 窗口 长 度 是 5s。 


: filteredadClickedStreaming.mapToPair (...) .reduceByKeyAndWindow( + ， 
= _ Seconds (5), Seconds: (2)) 


AMAODPp 


假设 在 第 一 个 时 间 窗 口 读 入 的 数据 为 (time0 timel time2 time3 time4) 
时 间 窗 口 1: 


| timeo | tmel | timez | tme | time4 | 


假设 在 第 二 个 时 间 窗 口 读 入 的 数据 为 (time2 time3 time4 time5 time6) 
时 间 窗 口 2: 


| time? | times | time4 | times | tme6 | 


接 下 来 看 一 下 reduceByKeyAndWindow 的 计算 过 程 。 

口 执行 + 操作: 时 间 窗 口 1 (time0 timel time2 time3 time4) 加 下 一 个 时 间 窗 口 
新 读 入 的 数据 (time5 ”time6) 计算 得 出 的 结果 (time0 timel time2 time3 time4 
time5 time6) 。 

执行 _-_ 操作 : 在 上 述 结果 的 基础 上 , 再 减 去 上 一 个 时 间 窗 口 旧 的 数据 (time0 timel) 
计算 得 出 的 结果 正好 是 第 二 个 时 间 窗 口 的 数据 (time2 time3 time4 time5 
time6) 。 基 于 重合 的 时 间 窗 口 数 据 ， 只 对 增加 、 减 少 的 数据 进行 计算 ， 提 升 了 计算 
效率 。 

电 商 广告 点 击 综合 案例 实现 广告 点 击 Trend 趋势 计算 实战 。 其 中 ，filteredad 
ClickedStreaming 的 格式 为 Key-Value 键 值 对 <String, String>，Key 为 Kafka 生成 的 Key 值 ， 
Value 值 是 Spark Streaming 从 Kafka 中 读 取 的 一 行 行 的 数据 。 从 filteredadClickedStreaming 每 
行 数据 的 第 二 个 元 素 t_2 广告 点 击 数据 中 提取 出 广告 ID、 时 间 ， 按 “ ”组 合成 新 的 Key 值 
time adID, Value 值 为 计数 1 次 .然后 将 每 行 数据 (time_adID,1) 执 行 reduceByKey AndWindow 
算 子 ， 每 隔 1 min 统计 过 去 30 min 的 用 户 广告 点 击 次 数 。 

广告 点 击 Trend 趋势 计算 实战 reduceByKeyAndWindow 代码 如 下 。 


业 = filteredadClickedStreaming-.mapToPair (new PairFunction<Tuple2<String, 
String>, String, Long>() { 


口 


. 645 。 


中 篇 ”商业 案例 








@Override 
public Tuple2<String, Long> call (Tuple2<String, String> t) 
throws Exception { 

Stringl] splited = t. 2-3pLILE("VE")S 


String adID = splited[3]; 


String time = splited[0]; 
//Todo: 居间 要 于 榈 民治 实现 时 间 算 和 分 钟 的 转换 提取 ， 此 处 需要 提取 出 
// 该 广告 的 点 击 分 钟 单位 


return new Tuple2<String，Long> (time + " " + adID, 11); 
} 
}) .reduceByKeyAndWindow (new Function2<Long, Long, Long>() { 


@Override 
public Long calll(Long v1, Long v2) throws Exception { 
// 待 办 事项 ， 自 动 生成 方法 存根 
return v1 + v2; 
} 
}, new Function2<Long, Long, Long>() { 


@Override 
public Long call(Long v1, Long v2) throws Exception { 
// 待 办 事项 ， 自 动 生 成 方法 存根 
return v1 - v2; 
} 
}, Durations.minutes(30), Durations.minutes (1) ) .foreachRDD (new 
Function<JavaPairRDD<String, Long>, Void>() { 


(3) 广 告 点 击 Trend 趋势 的 数据 插入 到 数据 库 时 上 Cs 。 time 、adID 、clickedCount， 
我 们 通过 J2EE ee 肯定 是 需要 年 、 、 时 、 分 这 个 维度 的 ， 所 以 我 们 
在 这 里 需要 年 、 月 、 日 、 小 时 、 分 钟 这 些 时 间 维 度 ; ii 期 、 小 时 、 分 钟 查 询 广告 
击 Trend 趋势 表 ， nh 则 进行 更 新 ;如 查询 没有 记录 ， 则 插入 新 的 记录 。 


数 


访 雪 





WN 
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库 操作 和 之 前 章节 的 操作 基本 一 样 ， 这 里 不 再 歼 述 。 


点 击 Trend 趋势 进行 数据 库 MySQL 入 库 的 操作 代码 如 


Q@Override 


public Void call (JavaPairRDD<String, Long> rdd) throws Exception{ 
rdd. foreachPartition (new VoidFunction<Iterator<Tuple2<String, 
Long>>>() { 


@Override 
public void call (Iterator<Tuple2<String, Long>> partition) 
throws Exception { 


List<AdTrendStat> adTrend = new ArrayList< 
AdTrendSstat>(); 


while (partition.hasNext()) { 
Tuple2<String, Long> record = partition.next(); 
String[] splited = record. 1.split(" "); 
String time = splited[0]; 
String adID splited[1]; 
Long clickedCount = record. 2; 
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16 . 
全 /亲本 
* 插入 数据 到 数据 库 时 ， 有 具体 需要 哪些 字段 ? time、aqID、 
* clickedCount; 而 我 们 通过 J2EE 技术 进行 趋势 绘图 的 时 
* 候 肯 定 是 需要 年 、 月 、 日 、 时 、 分 这 些 维度 的 ， 所 以 这 里 需 
* 要 年 、 月 、 上 日、 小时、 分钟 这 些 时 间 维 度 
18 . */ 
19. 
20. 
-4 RdTrendStat adqTrendStat = new AdTrendstat (); 
到 2 adTrendStat .setAdID (adID) 
和 3: adTrendStat .setClickedCount (clickedCount); 
= 时 adTrendstat.set date (time) //Todo: 获 取 年 月 日 
25. adTrendstat.set hour (time); //Todo: 获 取 小 时 
26. adTrendStat .set minute (time);  //Todo: 获 取 分 钟 
2 
28 . adTrend.add (adTrendStat) 
人 9 
30 . 
Se } 
S22 
= 六 泪 final List<AdTrendStat> inserting = new ArrayList< 
AdTrendStat>(); 
SE final List<AdTrendStat> updating = new ArrayList< 
AdTrendStat>(); 
三 汪 
36. JDBCWrapper jdbcWrapper = JDBCWrapper .getJDBCInstance () 7 
STe 
38. // 广 告 点 击 Trend 趋势 
S95 // 表 的 字段 : date、hour、minute、adID、clickedCount 
40. for (final AdTrendStat clicked : adTrend) { 
Al: final AdTrendCountHistory adTrendCountHistory = 
new AdTrendCountHistory(); 
42. 
43. jdbcWrapper .doQuery( 
44. "SELECT count (1)FROM adclickedtrend WHERE" 
45. + " date = ? AND hour = ? AND minute 
= 2? AND adID = 2", 
46. new Object[] {clicked.get date(), clicked. 
get hour(), clicked.get minute(), 
Ye clicked.getAdID()}, 
48. new ExecuteCallBack() { 
49. 
SD @Override 
SE public void resultCallBack (ResultSet 
result) throws Exception { 
三 二 
3 if (result.getRow() != 0) { 
Sq long count = result.getLong (1); 
| 站 adTrendCountHistory.setClicked 
CountHistory (count); 
56. updating.add (clicked); 
i } else { 
S85 
59. inserting.add(clicked); 
60 . 上 
在 下 
Lp } 
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16.10 


和 


} 


1D); 
j 
// 广 告 点 击 Trend 趋势 
// 表 的 字段 : date、hour、minute、adID、clickedCount 
ArrayList<Object[]> insertParametersList = new ArrayList< 
Object[]>(); 
for (AdTrendStat inserRecord : inserting) { 


insertParametersList 
-add (new Object[] {inserRecord.get date(), 


inserRecord.get hour(), inserRecord. get minute(), 
inserRecord.getAdID(), 
inserRecord.getClickedCount () }); 
| 


jdbcWrapper .doBatch ("INSERT INTO adclickedtrend VALUES 
(2,2,2,2,2)", insertParametersList);// IMF 

//BUG 

//FIXED 


// 广 告 点 击 趋势 
// 表 的 字段 : date、hour、minute、adID、clickedCount 
ArrayList<Object[]> updateParametersList = new ArrayList< 
Object[]>(); 
for (AdTrendStat updateRecord : updating) { 
updateParametersList .add (new Object[] {updateRecord. get 
ClickedCount () ， 
updateRecord.get date(),updateRecord.get hour(), 
updateRecord.get minute(), 
updateRecord.getAdID()}); 
jdbcWrapper .doBatch ("UPDATE adclickedtrend set clicked 
Count=? WHERE "+ " date = ? AND hour = ? AND minute = ? AND 
adID = ?", updateParametersList); 


return null; 


实战 模拟 点 击 数据 的 生成 和 数据 表 SQL 的 建立 


本 节 模 拟 用 户 在 电 商 网 站 点 击 广告 ， 模 拟 生成 电 商 广告 点 击 数据 ; 在 MySQL 数据 库 中 


建立 数据 库 表 。 


16.10.1 电 商 广告 点 击 综合 案例 模拟 数据 的 生成 





电 商 广告 点 击 大 数据 实时 流 处 理 系统 案例 整体 上 分 为 








E 产 数据 、 消 费 数据 两 部 分 。 


(1) 编写 MockAdClickStatus 的 代码 向 Kafka 集群 发 送 数 据 。 


648: 
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(2) 编写 Spark Streaming AdClickedStreamingStats 的 代码 从 Kafka 集群 中 提取 消费 数 
据 ， 将 Spark 实时 处 理 的 数据 持久 化 到 数据 库 中 。 

本 节 ， 我 们 编写 MockAdClickStatus 的 代码 向 Kafka 集群 发 送 数 据 ， 具 体 实 现 方法 如 下 。 

(1) 在 MockAdClickStatus 类 中 ， 模 拟 发 送 电 商 广 告 点 击 数据 信息 ， 其 发 送 的 数据 内 容 
为 timestamp、ip、userID、adID、Pprovince、city， 即 时 间 戳 、 卫 地 址 、 用 户 ID 、 广 告 ID、 


省 份 、 城 市 。 


:IE 


站 


final Random random = new Random(); 


final String[] provinces = new String[]{"Guangdong", "Zhejiang", 


"Jiangsu", "Fujian™}; 


// 省 份 、 城 市 数据 


final Map<String,String[]> cities = new HashMap<String, 
Stringll>(}> 

cities.put ("Guangdong", new String[] {"Guangzhou", "Shenzhen", "DongGuan"}); 
cities.put ("Zhejiang", new String[]{"Hangzhou", "Wenzhou", "Ningbo"}); 
cities.put ("Jiangsu", new String[] {"Nanjing","Suzhou", "WuXi"}); 
cities.put ("Fujian", new String[]{"Fuzhou", "Ximen", "Sanming"}); 


//IP 地 址 

final String[] ips = new String[]{ 
"92 :1686<1122240”， 
9251685d122239”7 
a pl 全 
LOZ OBE 和 和 
32 二 BTL2 24 
人 22682248 7 
-20812 24907 
Ee 
mT92 L608 L1225L"7 
iO lOO 
LOZ L005 UL2 29030 
QZ L600 Ll2258 


(2) 接 下 来 配置 Kafka 相关 的 信息 。 配 置 序列 化 类 、Kafka 集群 各 主机 名 、 端 口 等 信息 。 


3 


on 必 wmN 


Vs 


/** 


* Kafka 相关 的 基本 配置 信息 
m/f 


Properties kafkaConf = new Properties(); 

kafkaConf .put ("serializer.class", "kafka.serializer.StringEncoder"); 
kafkaConf .put ("metadata.broker.list", "master:9092,workerl:9092, 
worker2:9092"); 

ProducerConfig producerConfig = new ProducerConfig (kafkaConf); 


(3) 创建 kafka 的 Producer 生产 者 实例 ， 通 过 启动 线程 ， 在 线程 中 调用 Kafka 生产 者 实 
例 的 send 发 送 方 法 ,循环 不 断 地 向 Kafka 集群 发 送 数据 。 发 送 的 数据 内 容 为 电 商 广告 点 击 的 
模拟 数据 : 拼接 成 clickedAd 字符 串 ， 格 式 为 timestamp + t" 十 ipb+ At"+userID + t+adID 
+t" 十 province+ "t+city， 即 时 间 惟 下 地 址 用 户 ID 广告 ID 省 份 城市 。 


1. final Producer<Integer, String> producer = new Producer<Integer, String> 


2 
Si 
4. 


(producerConfig); 


new Thread(new Runnable() { 


. 649 . 
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Ss @Override 
6- public void run() { 
hi while(true){ 
B85 // 在 线 处 理 广告 点 击 流 广告 点 击 的 基本 数据 格式 : timestamp、ip、 
//userID, adID, province, city 
9. Long timestamp = new Date() .getTime(); 
SB String ip = ips[random.nextInt (12)]; 
// 可 以 采用 网 络 上 免费 提供 的 IP 库 
2 了 int userID = random.nextInt (10000); 
2 int adID = random.nextInt (100); 
人 String province = provinces[random.nextInt (4)]; 
5 String city = cities.get (province) [random.nextInt (3) ] 
SS 
65 String clickedAd= timestamp + "\t"+ip+"\t"+userID 


30: } 


EE radi NE + province t “Nt + City 


System.out .println(clickedAd); 


producer .send( new KeyedMessage ("AdClicked", clickedAd) ); 


try { 


Thread.sleep(2000); 


} catch (InterruptedException e) 
// TODO Auto-generated catch block 
e.printStackTrace (); 


} 


2 Westant(yy 


在 IDEA 中 运行 代码 ， 在 本 地 测试 生产 者 发 送 的 数据 内 容 如 下 。 








1341490331571280 192.168.112-239 1746 12 Jiangsu Nanjing 

2. 1490331573280 192.168.112.249 6204 77 Jiangsu WuxXi 

了 1490331575280 192.168.112.252 8372 80 Guangdong Guangzhou 

4. 1490331577280 192.168.112.246 1587 70 Fujian Ximen 

5. 1490331579280 192.168.112.239 9409 36 Zhejiang Ningbo 

6. 1490331581280 192.168.112.250 345 37 Guangdong Shenzhen 

7. 1490331583281 192.168.112.250 1946 29 Zhejiang Wenzhou 

8 1490331585281 “192.168.112.248 537 8 Guangdong DongGuan 

9. 1490331587281 192.168.112.239 2146 81 Fujian Fuzhou 

10. 1490331589281 “192-168-112-253 5547 96 Fujian Sanming 

11. 1490331591286 192.168.112.254 897 23 Zhejiang Ningbo 

12. T490331593287 ”192.168-112-.245 ”3430 79 Fujian Ximen 

13. 1490331595287 192.168.112.245 5651 77 Guangdong Shenzhen 

14. 1490331597287 "192.168-112.252” 8551 6 "Fujian Fuzhou 

(4) 在 本 地 测试 验证 以 后 ， 我 们 将 本 地 的 代码 打包 上 传 到 Kafka 分 布 式 集群 中 运行 。 在 
Eclipse 集成 开发 环境 下 将 MockAdClickStatus 导出 JAR 包 ， 上 传 到 Workerl 节点 上 。 为 方便 
测试 ， 使 生产 者 循环 不 断 地 向 Kafka 集群 发 送 数据 ， 我 们 编写 一 个 脚本 来 执行 。 在 脚本 中 配 


置 需 导 入 的 JAR 包 。 
MockAdClickedStats.sh 脚本 如 下 。 


1. java -Xbootclasspath/a:/usr/local/kafka 2.10-0.8.2.1/libs/kafka 2.10-0. 
8.2.1.jar:/usr/local/scala-2.10.4/lib/scala-library.jar:/usr/local/ka 
KR T1000. 2/ Ll 2 lo ar: /sr/local/atia 2.105059> 2 
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libs/metrics-core-2.2.0.jar:/usr/local/spark-1.6.1-bin-hadoop2.6/1ib/ 
spark-streaming 2.10-1.6.1.jar:/usr/local/kafka 2.10-0.8.2.1/libs/kaf 
ka-clients-0.8.2.1.jar:/usr/local/kafka 2.10-0.8.2.1/libs/slf4j-10g4j 
12-1.6.1.jar:/usr/local/kafka 2.10-0.8.2.1/libs/slf4j-api-1.7.6.jar 
-jar /usr/local/IMF testdata/MockAdClickedstats.jar 

(5) 在 Workerl 的 Linux 命令 提示 符 中 输入 chmod 修改 MockAdClickedStats.sh 的 权限 ， 


执行 MockAdClickedStats.sh 脚本 即 可 向 Kafka 集群 循环 不 断 地 发 送 数据 。 


1. root@workerl:/usr/local/setup scripts# chmod utx MockAdClickedStats114.sh 
2. root@workerl:/usr/local/setup scripts#MockAdClickedStats114.sh 


16.10.2 ” 电 商 广告 点 击 综 合 案例 数据 表 SQL 的 建立 


电 商 广告 点 击 综 合 案例 使 用 MockAdClickStatus 代码 循环 不 断 向 Kafka 集群 发 送 电 商 模 
拟 数据 ， 然 后 使 用 Spark Streaming AdClickedStreamingStats 代码 从 Kafka 集群 中 提取 消费 
数据 ，Spark Streaming 实时 处 理 的 数据 最 终 持久 化 到 MySQL 数据 库 中 ， 后 续 可 以 通过 J2EE 
Web 网 站 读 取 MySQL 中 的 数据 进行 可 视 化 展示 。 本 节 阐 述 电 商 广告 点 击 系统 在 MySQL 的 





建 表 操作 。 
电 商 广告 点 击 综合 案例 MySQL 数据 库 表 设计 : 在 MySQL 数据 库 表 中 创建 表 16-1， 分 
别 存放 广告 点 击 、 广 告 点 击 趋势 、 广 告 点 击 每 省 前 5 名 排名 数据 、 黑 名 单数 据 、 告 点 击 计 


数 等 数据 信息 。 


表 16-1 电 商 广告 点 击 系统 数据 库 表 设 计 
timestamp、ip、userID、adID、province、city、clickedCount 
date、hour、minute、adID、clickedCount 
timestamp、adID、province、clickedCount 













广告 点 击 每 省 前 5 名 排名 数据 
名 单数 据 
广告 点 击 计数 








timestamp、adID、province、city、clickedCount 


(1) 在 Master 节点 连接 MySQL 数据 库 ， 登 录 sparkstreaming 数据 库 ， 查 询 数据 库 表 。 


1. root@master:~# mysql -uroot -proot 
Ey 

3. mysql> show databases; 
4. +- 一 一- 一 -一 一 一 一 一 一 一 一 一 一 一 一 2 
5. | Database 1 

6. +------------ 一 -一 -一 一 -一 十 
7. | information schema | 
8. | hive 1 

9. | mysql 1 
10. | performance _ schema | 
11. | ‘spark 1 
12. | sparkstreaming | 
人 
14. 6 rows in set (1.13 sec) 
es 


16. mysql> use sparkstreaming ; 
17. Reading table information for completion of table and column names 
18. You can turn off this feature to get a quicker startup with -A 


20. Database changed 


= 
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21. mysql> show tables; 


2 + 
23. | Tables in sparkstreaming | 
DA + 
25. | categorytop3 1 
DE + 


27. 1 row in set (0.00 sec) 


(2) 在 MySQL sparkstreaming 数据 库 ， 依 次 建立 电 商 广告 点 击 综合 案例 需要 的 表 。 
建立 adclicked 广告 点 击 表 : 表 的 字段 包括 时 间 戳 、 卫 地址、 用户 ID、 广 告 ID、 省 份 、 
城市 、 点 击 次 数 (timestamp、ip、userID、adID、province、city、clickedCount)。 


CREATE TABLE IF NOT EXISTS adclicked ( 
timestamp VARCHAR(255), 

ip VARCHAR(255), 

userID VARCHAR(255), 

adID VARCHAR(255), 

province VARCHAR(255), 

city VARCHAR(255), 

clickedCount int(10) DEFAULT '0" 

); 


建立 adclickedtrend 广告 点 击 趋势 表 : 表 的 字段 包括 日 期 、 小 时 、 分 钟 、 广 告 DD、 点 击 
次 数 (date、hour、minute、adID、clickedCount)。 


oanAODp 


1 CREATE TABLE IF NOT EXISTS adclickedtrend ( 
2 date VARCHAR(255), 

3. hour VARCHAR(255), 

4. minute VARCHAR(255), 

5 adID VARCHAR(255), 

6 clickedCount int(10) DEFAULT '0' 

WY 


建立 adprovincetopn 各 省 广告 点 击 TopN 表 : 表 的 字段 包括 时 间 戳 、 广 告 ID、 省 份 、 点 
击 次 数 (timestamp、adID、province、clickedCount)。 


1. CREATE TABLE IF NOT EXISTS adprovincetopn ( 
2. timestamp VARCHAR(255), 

3. adID VARCHAR(255), 

4. province VARCHAR(255), 

5. clickedCount int(10) DEFAULT '0' 

6. ); 


建立 blacklisttable 黑 名 单 表 : 表 的 字段 包括 姓名 (name)。 


本 CREATE TABLE IF NOT EXISTS blacklisttable( 
有 name VARCHAR(255) 
3 Wa 


建立 adclickedcount 广告 点 击 统 计 表 : 表 的 字段 包括 时 间 戳 、 广 告 ID、 省 份 、 城 市 、 点 
击 次 数 (timestamp、adID、province、city、clickedCount)。 
可 
2 
区 ] 
4 
bo 
6 


CREATE TABLE IF NOT EXISTS adclickedcount ( 
timestamp VARCHAR(255), 
adID VARCHAR(255), 
province VARCHAR(255), 
city VARCHAR(255), 
clickedCount int(10) DEFAULT '0" 


sD . 
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了 = ) 
(3) 在 MySQL sparkstreaming 数据 库 中 通过 desc 查询 创建 表 的 各 个 字段 的 属性 , 验证 电 
商 广 告 点 击 综合 案例 的 表 已 经 建立 成 功 。 


1. mysql> desc adclickedtrend; 





2 二 -一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 + 一 一 一 一 二 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 十 
3. | Field | Type | Null 1 Key | Default | Extra | 
a 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 + 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 
5. | date | varchar(255) | YES | | NULL 1 1 
6. | hour | varchar(255) | YES | | NULL 1 | 
7. 1 minute | varchar (255) | YES | | NULL 1 | 
8. | adID | varchar (255) | YES | | NULL 1 | 
9. | clickedCount | int(10) 上 ES 1 0 | 1 
10. +------- 一 -一 -一 一 一 二 二 二 一 二 一 二 三 1 二 一 二 三 二 二 i 
11. 5 rows in set (0.00 sec) 

12. 

13. mysql> desc adclicked; 

14. +- 一 一 一 一 一 一 一 一 一 一 一 一 es i 和 a i 
15. | Field | Type | Null | Key | Default | Extra | 
16. +---- 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 二 二 De 一 二 二 一 一 全 i 
17. | timestamp | varchar(255) | YES | | NULL 1 | 
| J | varchar(255) | YES | | NULL 1 1 
19. | userID | varchar(255) | YES | | NULL 1 | 
202 I adED | varchar(255) | YES | | NULL | | 
21. | province | varchar(255) | YES | | NULL | | 
2 Cty | varchar(255) | YES | | NULL | | 
23. | clickedCount | int(10) [Be 1 0 | 1 
24. 1+- 一 -一 -一 -一 一 一 一 一 一 二 二 二 二 二 之 二 天 过 这 二 一 二 a 二 二 二 二 过 让 Ny 下 
25. 7 rows in set (0.00 sec) 

26- 

27. mysql> desc adprovincetopn; 

28. +- 一 -一 -一 一 一 一 一 一 一 一 he ke ry Ne EEC 
29. | Field | Type | Null | Key | Default | Extra | 
30. +--------- 一 一 一 一 一 十 二 = 一 二 = 二 一 = 二 = 二 = 二 = ====== 单一 二 三 一 一 带 一 一 二 一 一 一 三 三 一 二 三 一 一 一 一 二 
31. | timestamp | varchar (255) | YES | | NULL | 1 
32. | adID | varchar (255) | YES | | NULL | 1 
33. | province | varchar (255) | YES | | NULL | 1 
34. | clickedcount | int(10) res 1 0 1 1 
35. +---- 一 -一 -一 -一 一 一 De A ee i es 
36. 4 rows in set (0.00 sec) 

并 光 引 

38. mysql> show tables; 

St 

40. | Tables in sparkstreaming | 

Cf tr 


42. | adclicked 
43. | adclickedtrend 
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44. | adprovincetopn 


45. | categorytop3 
EE + 
47. 4 rows in set (0.00 sec) 


16.11 电 商 广告 点 击 综合 案例 运行 结果 


本 节 比 较 简单 ,根据 16.1.3 节 电 商 广告 点 击 综合 案例 整体 部 署 , 依次 启动 Hadoop、Spark、 
Zookeeper、Kafka 集群 及 Hive metastore 服务 、KafkaOffsetMonitor 监控 ， 然 后 运行 电 商 广告 
点 击 综合 案例 的 代码 ， 将 Spark Streaming 的 运行 结果 持久 化 到 MySQL 数据 库 中 ， 验 证 测试 
电 商 广告 点 击 综合 案例 的 运行 结果 。 


16.11.1 电 商 广告 点 击 综合 案例 Hadoop 集群 启动 





电 商 广告 点 击 综合 案例 Hadoop 集群 部 署 在 1 个 Master、 8 个 Worker 分 布 式 节点 上 。 
登录 Hadoop 集群 的 Master 节点 ， 进 入 Hadoop 的 bin 目录 ， 启 动 Hadoop 集群 。 

输入 # cd /usrlocalhadoop-2.6.0/sbin 。 

输入 # start-dfs.sh。 电 商 广告 点 击 综合 案例 只 需 使 用 Hadoop 的 分 布 式 文件 系统 ， 因 此 没 
有 启动 start-allsh， 仅 使 用 start-dfs.sh 启动 Hdfs 文件 系统 。 

电 商 广告 点 击 综合 案例 Hadoop 集群 启动 。 


root@master:/usr/local/hadoop-2.6.0/sbin# start-dfs.sh 

Starting namenodes on [master] 

master: starting namenode, logging to /usr/local/hadoop-2.6.0/logs/ 

hadoop-root-namenode-master.out 

4. worker4: starting datanode, logging to /usr/local/hadoop-2.6.0/lo0gs/ 
hadoop-root-datanode-worker4.out 

5. worker3: starting datanode, logging to /usr/local/hadoop-2.6.0/lo0gs/ 

hadoop-root-datanode-worker3.out 


6. worker2: starting datanode, logging to /usr/local/hadoop-2.6.0/lo0gs/ 


hadoop-root-datanode-worker2.out 

7. worker6: starting datanode, logging to /usr/local/hadoop-2.6.0/lo0gs/ 
hadoop-root-datanode-worker6.out 

8. workerl: starting datanode, logging to /usr/local/hadoop-2.6.0/lo0gs/ 
hadoop-root-datanode-workerl .out 


9. worker8: starting datanode, logging to /usr/local/hadoop-2.6.0/lo0gs/ 
hadoop-root-datanode-worker8.out 

10. worker5: starting datanode, logging to /usr/local/hadoop-2.6.0/lo0gs/ 
hadoop-root-datanode-worker5 .out 

11. worker7: starting datanode, logging to /usr/local/hadoop-2.6.0/lo0gs/ 
hadoop-root-datanode-worker7.out 

12. Starting secondary namenodes [0.0.0.0] 

13. 0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop-2.6.0/ 
logs/hadoop-root-secondarynamenode-master.out 


在 浏览 器 中 输入 http://192.168.189.1:50070， 查 看 Hadoop 集群 的 相关 信息 ， 如 图 16-7 
所 示 。 
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图 16-7 Hadoop 集群 的 Web 页 面 


16.11.2 ” 电 商 广告 点 击 综合 案例 Spark 集群 启动 


电 商 广告 点 击 综合 案例 Spark 集群 部 署 在 1 个 Master、 8 个 Worker 分 布 式 节点 上 。 登 
录 Spark 集群 的 Master 节点 ， 进 入 Spark 的 sbin 目录 ， 启 动 Spark 集群 。 

输入 # cd /usr/local/spark-1.6.1-bin-hadoop2.6/sbin。 

输入 # start-all.sh。 

电 商 广告 点 击 综合 案例 Spark 集群 启动 : 


a 


启动 spark 

root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to /usr/local/ 
spark-1.6.1-bin-hadoop2.6/10gs/spark-root-org.apache.spark.deploy.mas 
ter.Master-1-master.out 

worker4: starting org.apache.spark.deploy.worker.Worker, logging to 
/usr/local/spark-1.6.1-bin-hadoop2.6/10gs/spark-root-org.apache.spark 
.deploy.worker.Worker-1-worker4.out 

worker8: starting org.apache.spark.deploy.worker.Worker, logging to 
/usr/local/spark-1.6.1-bin-hadoop2.6/10gs/spark-root-org.apache.spark 
.dep1oy.worker.Worker-1-worker8 .out 

worker2: starting org.apache.spark.deploy.worker.Worker, logging to 
/usr/local/spark-1.6.1-bin-hadoop2.6/10gs/spark-root-org.apache.spark 
.deploy.worker.Worker-1-worker2.out 

worker7: starting org.apache.spark.deploy.worker.Worker, logging to 
/usr/local/spark-1.6.1-bin-hadoop2.6/10gs/spark-root-org.apache.spark 
.deploy.worker .Worker-1-worker7.out 

worker6: starting org.apache.spark.deploy.worker.Worker, logging to 
/usr/local/spark-1.6.1-bin-hadoop2.6/10gs/spark-root-org.apache.spark 
.deploy.worker .Worker-1-worker6.out 

worker3: starting org.apache.spark.deploy.worker.Worker, logging to 
/usr/local/spark-1.6.1-bin-hadoop2.6/l10gs/spark-root-org.apache.spark 
-deploy.worker-Worker-1-worker3 .out 

worker5: starting org.apache.spark.deploy.worker.Worker, logging to 


“0 
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/usr/local/spark-1.6.1-bin-hadoop2.6/l10gs/spark-root-org.apache.spark 


-deploy.worker .Worker-1-worker5.out 


11. workerl: starting org.apache.spark.deploy.worker.Worker, logging to 
/usr/local/spark-1.6.1-bin-hadoop2.6/10gs/spark-root-org.apache.spark 


-deploy.worker .Worker-1-workerl .out 


为 了 监控 Spark 任务 的 运行 情况 ， 可 以 开启 Spark 的 history-server 服务 ， 在 Spark 任务 
执行 完毕 后 ， 仍 可 以 查看 任务 的 执行 情况 。 


输入 # cd /usr/local/spark-1.6.1-bin-hadoop2.6/sbin。 
输入 # start-all.sh。 
电 商 广告 点 击 综合 案例 Spark history-server 服务 启动 : 





1. root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# start-history- 


server.sh 


2. starting org.apache.spark.deploy.history.HistoryServer, logging to /usr/ 
local/spark-1.6.1-bin-hadoop2.6/10gs/spark-root-org.apache.spark.depl 


oy-history.HistoryServer-1-master.out 


电 商 广告 点 击 综合 案例 Spark 集群 的 Web 页 面 如 图 16-8 所 示 。 


€ 3 C |D 192.168.189.1:8080 是 安 





Spaik ,,, Spark Master at spark://192.168.189.1:7077 


URL: spark//192 168 189 17077 
REST URL: spark /192 168.189 16066 (cusier mode] 
Alive Worhers: © 

Cores In use: 6 Tolal 0 Used 

Memory In use: 16 0 G6 Total 00 6 Useq 
Applications: 0 Running, 5 Completed 

Drivers: 0 Running. 0 Completed 

Status: ALIVE 














Address stbte Cores Memory 
192.168.189.3:55653 ANE 1(0Used) 2068(0.0BUsed) 

192.168 189.3.59273 ALYE 1(0Used) 20GB(00B Usedl 

192 168 189 5.45068 ALYE 1(0Used) 20GB(008 Used) 

192.168 189236175 ALYE 1(0Used) 20 68 (0.0B Used) 

192 166 1636.40248 ANE 。 10useg) 20G6(00BUsed) 
worker-20160606175741-192 163 189 6.60643 192 168 189 660643 ALvE 1(0Useq) 2068(008Useq) 
Worker-20160606175741-192.168.189.7-48754 192.168.189.7:48754 ANE 1(0Used) 2068(008 Used) 
Worker-20160606175742-192 163 189.4.33967 192.168.189.4.33967 ANE 1(0Used) 2068(00BUsed) 
Running Applications 
Application ID Name Coms Memory per Node Submitted Time User State Duration 
Completed Applications 
Application ID Name Cores 。 Memony perNode Submited nme User State Duration 
app-20160808202042-0005 IMFAdChekedStreaming Stats 8 10240MB 2016106106 202042 root FINSHED 。 45min 
app 20160606201922.0004 INFAdCickedsteamingStat 8 10240 MS 2016/06/08 20.1922 root FINSHED 。 39s 

INFAdCickedstrea 8 10240MB 2016/06/08 20.1436 oot FINSHED 。 19min 

INFAdCIckedsteamingStats 8 10240MB 2016/06/05 2003506 toot FINSHED 。 9s 
app-20160606194522-0001 INFAdCIckedsteamingstats s 10240 MB 2016/06/06 19.4522 rool FINSHED 24s 
a00-20150605192329-0009 INFAdCIcKedSWeaminoSia 8 T0240 MB 2016/06/05 192329 toot FINSHED 13mn 


图 16-8 Spark 集群 的 Web 页 面 


16.11.3 ” 电 商 广告 点 击 综合 案例 Zookeeper 集群 启动 





Dan 


“a 


电 商 广告 点 击 综合 案例 Zookeeper 集群 部 署 在 Master、Worker01、Worker02 3 个 分 布 式 
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节点 上 。 分 别 登录 Master、Worker01、Worker02 3 个 节点 ， 在 系统 提示 符 下 

输入 # zkServer.sh start 启动 Zookeeper。 

输入 # zkServer.sh status 查看 zkServer 的 状态 。 其 中 ，Worker01 是 领导 者 leader, Master、 
Worker02 是 跟随 者 follower。 
昌 商 广告 点 击 综合 案 例 Zookeeper 集群 启动 : 


root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# zkServer.sh start 
JUMX enabled by default 

Using config: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg 
Starting zookeeper ... STARTED 

. root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# zkServer.sh status 
JUMX enabled by default 

7. Using config: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg 

8. Mode: follower 

9. root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# jps 

10. 3633 NameNode 

11. 3890 SecondaryNameNode 

12. 5075 Jps 

13. 4997 QuorumPeerMain 

14. 4262 Master 

15. 4383 HistoryServer 


16. root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# 


i 





18. root@workerl:~# zkServer.sh start 

19. JMX enabled by default 

20. Using config: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg 
21. Starting zookeeper ... STARTED 

22. root@workerl:~# zkServer.sh status 

23. JMX enabled by default 

24. Using config: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg 
25. Mode: leader 

26. root@workerl:~# jps 

27. 2448 DataNode 

28. 2804 Worker 

29. 3211 Jps 

30. 3151 QuorumPeerMain 

31. root@workerl:~# 


33. root@worker2:~# zkServer.sh start 

34. JMX enabled by default 

35. Using config: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg 
36. Starting zookeeper ... STARTED 

37. root@worker2:~# zkServer.sh status 

38. JMX enabled by default 

39. Using config: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg 
40. Mode: follower 

41. root@worker2:~# jps 

42. 3203 Jps 

43. 2453 DataNode 

44. 2809 Worker 

45. 3149 QuorumPeerMain 

46. root@worker2:~# 
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16.11.4 电 商 广告 点 击 综合 案例 Kafka 集群 启动 





电 商 广告 点 击 综合 案例 Kafka 集群 部 署 在 Master、Worker01、Worker02 3 个 分 布 式 节点 


上 。 分 别 登录 Master、Worker01、Worker02 3 个 节点 ， 在 系统 提示 符 下 : 

输入 # nohup /usr/local/kafka 2.10-0.9.0.1/bin/kafka-server-start.sh/usr/local/kafka 2.10- 
0.9.0.1/config/server.properties & 启动 Kafka， 久 表示 在 系统 后 台 运 行 。 

输入 #jps 查看 Kafka 的 状态 。 在 3 个 分 布 式 节 点 上 都 启动 了 Kafka 进程 。 

电 商 广告 点 击 综合 案例 Kafka 集群 启动 : 


Ls 


WN 


root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# nohup /usr/ 
local/kafka 2.10-0.9.0.1/bin/kafka-server-start.sh /usr/local/kafka 

2.10-0.9.0.1/config/server.properties & 

[LI ‘5132 

root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# root@master:/ 
usr/local/spark-1.6.1-bin-hadoop2.6/sbin# nohup: ignoring input and 
appending output to ‘nohup.out’ 


root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# jps 
5200 Jps 

3633 NameNode 

3890 SecondaryNameNode 

4997 QuorumPeerMain 


. 4262 Master 

. 5132 Kafka 

. 4383 HistoryServer 

. root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# 


- root@workerl:~# nohup /usr/local/kafka 2.10-0.9.0.1/bin/kafka-server- 


start.sh /usr/local/kafka 2.10-0.9.0.1/config/server.properties & 
[1] 3225 


. root@workerl:~# jps 
. 2448 DataNode 

a 3249 Jps 

. 2804 Worker 

. 3225 Kafka 

. 3151 QuorumPeerMain 
. root@workerl:~# 


. root@worker2:~# nohup /usr/local/kafka 2.10-0.9.0.1/bin/kafka-server-— 


start.sh /usr/local/kafka 2.10-0.9.0.1/config/server.properties & 
六 WW 3216 


. root@worker2:~# jps 
. 3216 Kafka 

3235 .0p5s 

- 2453 DataNode 

- 2809 Worker 

. 3149 QuorumPeerMain 
- root@worker2:~# 
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电 商 广告 点 击 综合 案例 Kafka 集群 测试 验证 : 
(1) 在 电 商 广告 点 击 综合 案例 Kafka 集群 使 用 kafka-topics.sh --create 创建 一 个 主题 topic， 
主题 名 称 为 AdClicked。 


1. root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# kafka-topics.sh 
——create -zookeeper master:2181,worker1:2181,worker2:2181 --replication-— 
factor 1 --partitions 1 --topic AdClicked 


(2) 在 电 商 广告 点 击 综合 案例 Kafka 集群 使 用 kafka-topics.sh --describe 查看 已 有 主题 的 
详细 情况 。 


1. root@master:/usr/local/spark-1.6.1-bin-hadoop2.6/sbin# kafka-topics.sh 
--describe --zookeeper master:2181,workerl:2181,worker2:2181 

2. Topic:AdClicked PartitionCount:1 ReplicationFactor:1 Configs: 

3 Topic: AdClicked Partition: 0 Leader: 0 Replicas: 0 Isr: 0 

4. Topic:IMFHelloKafka PartitionCount:1 ReplicationFactor:1 Configs: 

5 Topic: IMFHelloKafka Partition: 0 Leader:1 Replicas: 1 Isr:1 

6. Topic:SparkStreamingDirected PartitionCount:1 ReplicationFactor:1 
Configs: Topic: SparkStreamingDirected Partition: 0 Leader: 1 
Replicas: 1 Isr: 1 


(3) 在 电 商 广告 点 击 综 合 案例 Kafka 集群 Master 节点 编辑 MockAdClickedStats114.sh 脚 
本 ， 配 置 相 应 的 JAR 包 ， 运 行 16.10.1 节 电 商 广 告 点 击 综 合 案 例 模拟 数据 生成 的 
MockAdClickedStats jar 代码 ， 模 拟 生 产 者 循环 不 断 地 广告 点 击 数据 发 送 给 Kafka 集群 。 


1. root@master:/usr/local/setup scripts# cat MockAdClickedstats114.sh 

2. java -Xbootclasspath/a:/usr/local/kafka 2.10-0.8.2.1/libs/kafka 2.10- 
0.8.2.1.jar:/usr/local/scala-2.10.4/lib/scala-library.jar:/usr/local/ 
kafka 2.10-0.8.2.1/libs/l10g4j-1.2.16.jar:/usr/local/kafka 2.10-0.8.2. 
1/libs/metrics-core-2.2.0.jar:/usr/local/spark-1.6.1-bin-hadoop2.6/1i 
b/spark-streaming 2.10-1.6.1.jar:/usr/local/kafka 2.10-0.8.2.1/libs/k 
afka-clients-0.8.2.1.jar:/usr/local/kafka 2.10-0.8.2.1/libs/slf4j-log 
412=1.60 TJar:/usr/local/kafka 2-10=0°8:251/Tibs/slf4 =api— dT 06- jar 
-jar /usr/local/IMF testdata/MockAdClickedstats.jar 





3 

4. root@master:/usr/local/setup scripts# MockAdClickedstats114.sh 

5. log4j:WARN No appenders could be found for logger (kafka.utils. 
VerifiableProperties) . 

6. 1og4j :WARRN Please initialize the 1log4j system properly. 

7. 1og4j:WARN See http://logging.apache.org/10g4j/1.2/faq.html#noconfig 
for more info. 

So 


(4) 输入 Kafka 消费 者 客户 端 命令 kafka-console-consumer.sh --zookeeper， 查 看 广告 点 击 
数据 信息 。 


和 root@worker2:~# kafka-console-consumer.sh --zookeeper master:218]1, 
workerl:2181,worker2:2181 --from-beginning --topic AdClicked 

2 14052103512713 1022.168-.112:250 4856 98 Jiangsu Nanjing 

3. 1465210351830 192.168.112.248 4008 64 Zhejiang Wenzhou 

4. 1465210351884 192.168.112.254 4356 85 Zhejiang Ningbo 

5 465210351938 "192.168.112.245 5451 19 Fujian Sanming 

Gi465214035E993 192-160112.253 .7571 9 Jiangsu Suzhou 

7. 1465210352051 192.168.112.254 2778 33 Guangdong Guangzhou 

Os IAGS210352106 192>160112252 00712 入 Jiangsu Suzhou 

9 T1405210352161 192.169-1412.247 5699 70 Fujian Sanming 

:| 
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16.11.5 ” 电 商 广告 点 击 综合 案例 Hive metastore 集群 启动 





























电 商 广告 点 击 综合 案例 实现 每 个 Province 点 击 排名 Top5 广告 时 , 使 用 hiveContext 的 上 
下 文 ， 因 此 我 们 须 启 动 Hive 的 元 数据 服务 ，Spark 框架 会 读 取 Hive 的 元 数据 服务 信息 。 

在 系统 提示 符 下 : 

输入 # hive --service metastore & 启动 Hive metastore 服务 。 

电 商 广告 点 击 综合 案例 Hive metastore 服务 集群 启动 : 

1. root@master:~# hive --service metastore & 

[11 S157 

De 

4. SLF4J: See http://www.slf4j.org/codes.html#multiple bindings for an 

explanation. 

5. SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

6. Starting Hive Metastore Server 

yy 

8. SLF4J: See http://www.slf4j.org/codes.html#multiple bindings for an 


9 


explanation. 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 


16.11.6 ” 电 商 广告 点 击 综 合 案例 程序 运行 


电 商 广告 点 击 大 数据 实时 流 处 理 系统 案例 系统 整体 上 分 成 生产 数据 、 消 费 数据 两 部 分 。 
(1) MockAdClickedStats114.sh 脚本 执行 ， 循 环 不 断 地 向 Kafka 集群 发 送 数据 : 时 间 戳 、 
卫 地 址 、 用 户 ID、 广 告 ID、 省 份 、 城 市 。 


E 


root@master:/usr/local/setup scripts# MockAdClickedstats114.sh 


(2)AdClickedStreamingStats114.sh 脚本 执行 ,将 AdClickedStreamingStats 类 代码 打 成 JAR 
包 , 上 传 到 Spark 分 布 式 集群 Master 节点 上 , 编写 脚本 运行 AdClickedStreamingStats.jar 代码 ， 
从 Kafka 集群 中 消费 数据 ， 将 Spark 实时 处 理 的 数据 持久 化 到 数据 库 中 。 


4 
2 


3 
4. 


* 660°* 


root@master:/usr/local/setup scripts# vi AdClickedstreamingstats114.sh 
/usr/local/spark-1.6.1-bin-hadoop2.6/bin/spark-submit --files /usr/ 
local/apache-hive-1.2.1/conf/hive-site.xml --class com.dt.spark. 


sparkstreaming.AdClickedStreamingStats --master spark://192.168.189.1:7077 
--jars /usr/local/spark-1.6.1-bin-hadoop2.6/lib/mysql-connector-java- 
5.1.13-bin.jar, /usr/local/spark-1.6.1-bin-hadoop2.6/l1ib/spark-streami 
ng 2.10-1.6.1.jar,/usr/local/spark-1.6.1-bin-hadoop2.6/1ib/spark-asse 
mbly-1.6.1-hadoop2.6.0.jar/usr/local/IMF testdata/AdClickedSstreamingStats.jar 


root@master:/usr/local/setup scripts# chmod utx AdClickedstreaming 
Stats1l14.sh 


root@master:/usr/local/setup scripts# cat AdClickedStreamingStats114. sh 


/usr/local/spark-1.6.1-bin-hadoop2.6/bin/spark-submit --files /usr/ 
local/apache-hive-1.2.1/conf/hive-site.xml -class com.dt.spark.sparkstreaming. 
AdClickedSstreamingstats ——master spark://192.168.189.1:7077 --jars 


/usr/local/spark-1.6.1-bin-hadoop2.6/lib/mysql-connector-java-5.1.13— 
bin.jar,/usr/local/spark-1.6.1-bin-hadoop2.6/1ib/spark-streaming 2.10 
-1.6.1.jar,/usr/local/spark-1.6.1-bin-hadoop2.6/1ib/spark-assembly-1. 
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bond 





6.1-hadoop2.6.0.jar /usr/local/IME testdata/AdClickedstreamingstats.jar 
root@master:/usr/local/setup scripts# 


16.11.7 ” 电 商 广告 点 击 综 合 案例 运行 结果 


电 商 广告 点 击 大 数据 实时 流 处 理 系 统 案例 运行 ， 登 录 Master 节点 的 MYSQL 数据库 ， 分 


别 查 询 广告 点 击 、 广 告 点 击 趋势 、 广 告 点 击 每 省 前 5 名 排名 数据 、 黑 名 单数 据 、 广 告 点 击 计 
数 等 数据 库 表 ，MySQL 表 中 实时 展示 Spark Streaming 处 理 保存 的 用 户 广 告 点 击 数 据 ， 测 试 
验证 电 商 广告 点 击 综合 案例 运行 成 功 。 


mysql> select * f 








rom adclicked; 




















| 1467551315985 | 192.168.112.2531496 1661Guangdongl Guangzhou| 0 | 
| 1467551328011 | 192.168.112.252|4490|0 lGuangdong| Shenzhen | 0 | 
| 1467551322000 | 192.168.112.251117631891Guangdongl Guangzhou| 0 | 
| 1467551326007 | 192.168.112.247| 4721701Fujian | Fuzhou je 
| 1467551330016 | 192.168.112.254182161 4lZhejiang | Ningbo io 
| 1467551338074 | 192.168.112.24615954187|Zhejiang | Wenzhou 101 
后 二 和 == 古寺 == 人 == 下 三 三 = 三 = 二 三 = 二 十 -一 -十 
362 rows in set (0.00 sec) 
. mysql> select * from adclickedcount ; 
1467551273830 | 1 | Zhejiang | Ningbo 1 1 
1467551311971 | 99 | Guangdong | Guangzhou | 证 
1467551305954 | 19 | Zhejiang | Wenzhou | 是 
1467551269807 | 0 | Fujian | Fuzhou 1 1 
1467551315985 | 66 | Guangdong | Guangzhou | 1 
1467551338074 | 87 | Zhejiang | Wenzhou 1 1 
1467551271816 | 72 | Jiangsu | WuXi 1 什 
1467551303943 | 85 | Fujian | Sanming | 进 
.二 -一 -一 一 一 一 一 一 一 一 一 一 一 -一 一 
. 14471 rows in set (0.02 sec) 
. mysql> select * from adclickedtrend ; 
手下 三 = 二 二 二 二 二 二 二 二 和 和 站 a. 二 二 区 一 一 之 二 二 二 二 十 
| date | hour minute ladID 1clickedCount1 
并 三 =============== 年 = 二 = 二 == 三 = 三 >= 二 = 二 = 二 === 一 = 下 = 二 二 三 = 一 = 二 三 三 一 十 
| 1467551271816 | 1467551271816 | 1467551271816 | 72 | 1 
| 1467551283868 | 1467551283868 1467551283868 | 74 | 2 
| 1467551285873 | 1467551285873 | 1467551285873 | 27 | 1 
| 1467551289887 | 1467551289887 | 1467551289887 | 64 | 
-| 1467551301937 | 1467551301937 | 1467551301937 | 17 | 1 
| 1467551319992 | 1467551319992 1467551319992 | 83 1 过 
| 1467551315985 | 1467551315985 | 1467551315985 | 66 | 1 
| 1467551281860 | 1467551281860 | 1467551281860 | 0 1 于 
| 1467551303943 | 1467551303943 1467551303943 | 85 1 1 
- | 1467551309964 | 1467551309964 46755L3099641 37 1 下 
+ 一 一 一 一 一 一 一 -一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 一 一 + 
. 23 rows in set (0.00 sec) 
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电 商 广告 点 击 综合 案例 Spark 监控 图 如 图 16-9 所 示 。 
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图 16-9 电 商 广告 点 击 综合 案例 Spark 监控 图 
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Kafka 集群 的 Web UI 页 面 监控 KafkaOffsetMonitor。 
下 载 安装 Kafka 集群 运行 的 第 三 方 监控 工具 KafkaOffsetMonitor， 编 写 脚本 IMFKafka 
OffsetMon .sh 运行 KafkaOffsetMonitor 工具 。 


于 root@master:/usr/local/kafka monitor# vi IMFKafkaOffsetMon.sh 

2. #! /bin/bash 

3. java -cp /usr/local/kafka monitor/KafkaOffsetMonitor-assembly-0.2.0. 
Jar com.quantifind.kafka.offsetapp.OffsetGetterWeb --zk master:2181, 
workerl:2181,worker2:2181 --port 8089 --refresh 10.seconds --retain 
1.days 


root@master:/usr/local/kafka monitor# chmod utx IMFKafkaOffsetMon.sh 
root@master:/usr/local/kafka monitor# ls 
IMFKafkaOffsetMon.sh KafkaOffsetMonitor-assembly-0.2.0.jar 


Far 


Kafka 集群 的 Web UI 页 面 监 控 图 如 图 16-10 所 示 。 





图 16-10 ”Kafka 集群 的 Web UI 页 面 监控 图 


16.12 电 商 广告 点 击 综 合 案 例 Scala 版 本 关注 点 





电 商 广告 点 击 综合 案例 之 前 是 用 Java 语言 开发 的 。 本 节 使 用 Scala 语言 重新 改写 Java 代 
码 。Scala 开发 中 ， 我 们 关注 一 下 MySQL 数据 库 的 相关 开发 内 容 。 


1. 数据 库 的 链接 


电 商 广告 点 击 综合 案例 Java 版 本 中 定义 了 一 个 数据 库 连 接 类 JDBCWrapper, 在 数据 库 连 
接 类 JDBCWrapper 中 定义 了 MySQL 连接 池 、 连 接 驱 动 、 连 接地 址 端口 等 内 容 ; Java 中 使 用 





J 
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static 关键 字 定 义 静 态 变量 、 静 态 代 码 块 及 静态 方法 。 

电 商 广告 点 击 综合 案例 Scala 代码 实现 中 ，Scala 使 用 Object 伴生 对 象 实现 Java 的 static 
静态 对 象 内 容 。 在 Scala 代码 中 使 用 单 例 模式 创建 JDBCWrapper 类 的 伴生 对 象 object 
JDBCWrapper， 新 建 一 个 JDBCWrapper 类 型 的 变量 jdbcImstance， 在 getInstance 方法 中 ,使 
用 synchronized 同步 块 锁定 多 线程 中 new JDBCWrapper0 的 创建 ，jdbcInstance 如 果 为 空 ， 就 
创建 一 个 JDBCWrapper 实例 ，jdbcInstance 如 果 不 为 空 ， 就 返回 之 前 已 经 创建 的 jdbcInstance 
实例 。 








1. object JDBCWrapper { 

和 private var jdbcInstance: JDBCWrapper = 
3 def getInstance(): JDBCWrapper = { 
4 synchronized { 

5 if (jdbcInstance == null) { 

6 jdbcInstance = new JDBCWrapper () 
六 1 

8 

9 jdbcInstance 

0= 

让 


如 不 使 用 伴生 对 象 object JDBCWrapper 单 例 模 式 ， 直 接 创建 new JDBCWrapper() 实 例 ， 
在 rdd.foreachPartition 中 连接 MySQL 数据 库 就 会 提示 “Too many connections” 异 常 ， 改 用 上 
述 单 例 模式 可 解决 这 个 问题 。 


2. MySQL 数 据 库 批量 数据 增 、 删 、 改 、 查 


电 商 广告 点 击 综合 案例 Java 版 本 中 ，doBatch 传 入 的 第 一 个 参数 是 sqlText 语句 , 第 二 个 
参数 是 对 象 数组 列表 ，paramsList 列表 中 的 元 素 是 一 个 对 象 数组 ， 然 后 在 doBatch 方法 中 用 
for 循环 遍历 paramsList 列表 ， 读 入 对 象 数组 的 数值 ， 写 入 到 preparedStatement 批量 参数 列表 
中 。 pe executeBatch() 批 量 执 行 ， 获 取 数 据 库 操作 结果 

在 电 商 广告 点 击 综合 案例 Scala 版 本 中 ， 定 义 一 个 类 class a 传 入 参数 ， 
params_Type 定义 为 参数 类 型 ， 由 于 无 法 直接 定义 一 个 Object 类 型 的 对 象 ， 因 此 只 好 硬 编码 
来 实现 不 同 的 传 入 类 型 : params1- params7 传 入 String 类 型 ，params10_Long 传 入 Long 类 型 。 

1. class paramsList extends Serializable { 

var params1: String 
var params2: String 


2 二 
.| 

4. var params3: String 

上 广 Var params4: String 

6 var params5: String 

7 Var params6: String 

8 var params7: String 


9 Var params10 Long: Long = 


天 局 加 | 局 | 局 味 | 


305 Var params Type : String = 
让 var length: Int = 

2 

Se } 


在 JDBCWrapper 的 doBatch 方法 中 , 根据 传 入 paramsList 参数 列表 的 params_Type 字段 
模式 匹配 ， 批 量 插入 不 同 的 SQL 参数 ， 如 params_Type 为 adclickedInsert， 插 入 广告 点 击 次 
数 表 的 相关 参数 。 
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1. def doBatch(sqlText: String, paramsList: ListBuffer [paramsList]) : Array 





hia 
区 Val conn: Connection = getConnection () 7 
3 Var preparedStatement: PreparedStatement = null; 
4. val result: Array[Int] = null; 
Le EE 
Be conn.setAutoCommit (false); 
ye preparedStatement = conn.prepareStatement (sqlText) 
8. for (parameters <- paramsList) { 
| println("====doBatch parameters.params Type: "+ parameters. 
params Type) 
10。 parameters.params Type match { 
站 case "adclickedInsert" => { 
上 人 二 println("adclickedInsert") 
3 preparedStatement .setObject (1，Parameters.paramsl) 
14. preparedStatement .setObject (2, parameters.params2) 
L535s preparedStatement .setObject (3, parameters.params3) 
16. preparedStatement .setObject (4, parameters.params4) 
11s preparedStatement .setObject (5, parameters.params5) 
GS preparedStatement .setObject (6, parameters.params6) 
0s preparedStatement .setObject (7, parameters.params10 Long) 
20. } 
2 
人 2 preparedStatement .addqBatch () 7 
这 } 
24. 
4 Val result = preparedStatement .executeBatch () 
26. 
Ze conn.commit (); 
8 } catoh 
293 // 待 办 事项 : 自动 生成 catch 块 
30. case e: Exception => e.printstackTrace() 
3 } finally { 
2 if (PreparedStatement != null) { 
3 EE 
直下 PreparedStatement .close() 7 
区 | cabch 
36. // 待 办 事项 ， 自 动 生成 catch 块 
3 case e: SQLException => e.printstackTrace() 
38. } 
39. i 
40. 
三 还 if (conn != null) { 
网 全 try { 
43. dbConnectionPool.put (conn); 
44. } catch { 
是 5 // 待 办 事项 : 自动 生成 catch 块 
46 . case e: InterruptedException => e.printstackTrace() 
47. } 
48 . 让 
49- } 
50. 
bh 属 result; 
2 } 
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16.13 ” 电 商 广告 点 击 综合 案例 课程 的 Java 源码 


Spark Streaming 电 商 广告 点 击 综合 案例 课程 消费 广告 点 击 数据 的 Java 源码 ， 如 例 16-1 
所 示 。 
【 例 16-1】AdClickedStreamingStatsjava 代码 。 





Ls package com.dt.spark.SparkApps.SparkStreaming; 


3. import java.io.Serializable; 

4. import java.sql.Connection; 

5. import java.sql.DriverManager; 

6. import java.sql.PreparedStatement; 
7. import java.sql.ResultSet; 

8. import java.sql.SQOLException7 

9. import java.util.ArrayList; 

10. import java.util.Arrays; 

11. import java.util.HashMap; 

12. import java.util.HashSet; 

13. import java.util.Iterator; 

14. import java.util.List; 

15. import java.util.Map; 

16. import java.util.Set; 

17. import java.util.concurrent.LinkedBlockingQueue; 


19. import org.apache.spark.SparkConf; 

20. import org.apache.spark.SparkContext; 

21. import org.apache.spark.api.java.JavaPairRDD; 

22. import org.apache.spark.api.java.JavaRDD; 

23. import org.apache.spark.api.java.JavaSparkContext; 

24. import org.apache.spark.api.java.function.Function; 

25. import org.apache.spark.api.java.function.Function2; 

26. import org.apache.spark.api.java.function.PairFunction; 

27. import org.apache.spark.api.java.function.VoidFunction; 

28. import org.apache.spark.sql.DataFrame; 

29. import org.apache.spark.sql .Row; 

30. import org.apache.spark.sql .RowFactory; 

31. import org.apache.spark.sql.hive.HiveContext; 

32. import org.apache.spark.sql.types.DataTypes; 

33. import org.apache.spark.sql.types.StructField; 

34. import org.apache.spark.sql.types.StructType; 

35. import org.apache.spark.streaming.Durations; 

36. import org.apache.spark.streaming.api.java.JavaDStream; 

37. import org.apache.spark.streaming.api.java.JavaPairDstream; 
38. import org.apache.spark.streaming.api.java.JavaPairIinputDStream; 
39. import org.apache.spark.streaming.api.java.JavaStreamingContext; 
40. import org.apache.spark.streaming.kafka.KafkaUtils; 


42. import org.apache.hadoop.hive.ql.parse.HiveParser IdentifiersParser. 
function return; 


44. import com.google.common.base.Optional; 


46. import kafka.serializer.StringDecoder; 
47. import scala.Tuple2; 
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48. import scala.collection.Seq; 


49. 


64. 


* 在 线 处 理 广告 点 击 , 广告 点 击 的 基本 数据 格式 : timestamp、ip、userID、adID、 province、 city 


* @author wangjialin 


. public class AdClickedStreamingStats { 


public static void main(String[] args) { 


/** 
* 第 一 步 : 配置 SparkConf: 
*(D 至 少 2 条 线程 : 因为 Spark Streaming 应 用 程序 在 运行 的 时 候 ， 至 少 有 一 条 
*# 线 程 用 于 不 断 地 循环 接收 数据 ， 并 且 至 少 有 一 条 线程 用 于 处 理 接收 的 数据 〈 和 否则 无 法 有 
*# 线 程 用 于 处 理 数据 ， 随 着 时 间 的 推移 ， 内 存 和 磁盘 都 会 不 堪 重 负 ) ， 
* @) 对 于 集群 而 言 ， 每 个 Executor 一 般 不 止 一 个 Thread， 那 对 于 处 理 Spark 
* Streaming 的 应 用 程序 而 言 ， 每 个 Executor 一 般 分 配 多 少 Core 比较 合适 ? 根据 经 
* 验 ，5 个 左右 的 Core 最 佳 〈 一 个 段 分 配 为 奇数 个 Core 表现 最 佳 ， 如 3 个 、5 个 、 
*7 个 Core 等 ) ; 
四 


*/ 


SparkConf conf = new SparkConf () .setMaster("spark://192.168. 
93570737 
.SetAppName ("IMF-20160710-114-AdClickedstreamingstats"); 


// SparkConf conf = new 
// SparkConf () .setMaster ("local[5]") .setAppName ("IMF-20160626- 
114-AdClickedstreamingStats") 


/** 
* SparkConf conf = new SparkConf () .setMaster ("local [5] ") .setAppName ( 
* "IMF-20160706-114-local-AdClickedstreamingStats") .setJars (new 
* String[] { 
* "/usr/local/spark-1.6.1-bin-hadoop2.6/1ib/spark-streaming- 
*kafka 2.10-1.6.1.jar", 
* "/usr/local/kafka 2.10-0.8.2.1/libs/kafka-clients-0.8.2.1.jar", 
* "/usr/local/kafka 2.10-0.8.2.1/libs/kafka 2.10-0.8.2.1.jar", 
* "/usr/local/spark-1.6.1-bin-hadoop2.6/1ib/spark-streaming 2.10- 
i Th 1 es 
* "/usr/local/kafka 2.10-0.8.2.1/libs/metrics-core-2.2.0.jar", 
* "/usr/local/kafka 2.10-0.8.2.1/libs/zkclient-0.3.jar", 
* "/usr/local/spark-1.6.1-bin-hadoop2.6/1ib/spark-assembly- 
*1.6.1-hadoop2.6.0.jar", 
* "/usr/local/spark-1.6.1-bin-hadoop2.6/lib/mysql-connector-java-— 
3 blir jar™ 
来 
来 


es 
a 


/** 
* 第 二 步 : 创建 SparkStreamingContext: 
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* @ 这 是 SparkStreaming 应 用 程序 所 有 功能 的 起 始点 和 程序 调度 的 核心 
* SparkStreamingContext 的 构建 可 以 基于 SparkConf 参数 ， 也 可 基于 持久 化 
* 的 SparkStreamingContext 的 内 容 来 恢复 (典型 的 场景 是 Driver 崩 江 后 重新 
* 启动 ， 由 于 Spark Streaming 具有 连续 7X24 小 时 不 间断 运行 的 特征 ， 所 以 需要 
* 在 Driver 重新 启动 后 继续 之 前 系统 的 状态 ， 此 时 的 状态 恢复 需要 基于 曾经 的 
* Checkpoint) ; 
* @ 在 一 个 Spark Streaming 应 用 程序 中 ， 可 以 创建 若干 个 SparkStreaming 
* Context 对 象 ， 使 用 下 一 个 SparkStreamingContext 之 前 需要 把 前 面 正 在 运 
* 行 的 SparkStreamingContext 对 象 关 闭 掉 ， 由 此 ， 我 们 获得 一 个 重大 的 启发 ， 
* Spark Streaming 框架 也 只 是 Spark Core 上 的 一 个 应 用 程序 而 已 ， 只 不 过 
* Spark Streaming 框架 箱 运行 的 话 ， 需 要 Spark 工程 师 写 业务 逻辑 处 理 代码 
dd 
JavaStreamingContext jsc = new JavaStreamingContext (conf, 
Durations.seconds (10)); 
jsc.checkpoint ("/usr/local/IMF testdata/IMFcheckpoint114"); 
/** 
* 第 三 步 : 创建 Spark Streaming 输入 数据 来 源 input Stream: 
* (CD 数据 输入 来 源 可 以 基于 File、HDFS、Flume、Kafka、Socket 等 ; 
* @) 这 里 我 们 指定 数据 来 源 于 网 络 Socket 端口 ，Spark Streaming 连接 上 
* 该 端口 并 在 运行 的 时 候 一 直 监 听 该 端口 的 数据 (当然 ， 该 端口 服务 首先 必须 
* 存在 ) ， 并 且 在 后 续 会 根据 业务 需要 不 断 有 数据 产生 (当然 ， 对 于 Spark 
* Streaming 应 用 程序 的 运行 而 言 ， 有 无 数据 其 处 理 流程 都 一 样 ) ; 
* (@) 如 果 经 常 每 间隔 5s 没有 数据 ， 不 断 地 启动 空 的 Job 其 实 会 造成 调度 资源 
* 的 浪费 ， 因 为 并 没有 数据 需要 发 生计 算 ， 所 以 实例 的 企业 级 生成 环境 的 代码 
* 在 具体 提交 Job 前 会 判断 是 否 有 数据 ， 如 果 没有 ， 就 不 再 提交 Job; 
* @ 在 本 案例 中 ， 有 具体 参数 的 含义 : 
* 第 一 个 参数 是 StreamingContext 实例 ; 
* 第 二 个 参数 是 ZooKeeper 集群 信息 (接收 Kafka 数据 时 会 从 ZooKeeper 
* 中 获得 offset 等 元 数据 信息 ) ; 
* 第 三 个 参数 是 Consumer Group 
* 第 四 个 参数 是 消费 的 Topic 以 及 并 发 读 取 Topic 中 Partition 的 线程 数 
来 
* 创建 Kafka 元 数据 ， 让 Spark Streaming 这 个 Kafka Consumer 利用 
*/ 
Map<String, String> kafkaParameters = new HashMap<String, String>(); 
kafkaParameters .put ("metadata .broker.list", "Master:9092,Workerl: 
9092,Worker2:9092"); 


Set<String> topics = new HashSet<string>(); 
topics.add ("AdClicked"); 


JavaPairIinputDStream<String, String> adClickedStreaming = 
KafkaUtils.createDirectSstream(jsc, String.class, 
String.class, StringDecoder.class, StringDecoder. 


class, kafkaParameters, topics); 
/** 


* 因为 要 对 黑 名 单 进行 在 线 过 滤 ， 而 数据 是 在 RDD 中 的 ， 所 以 必然 使 用 transform 
* 函数 ; 但 是 ， 这 里 我 们 必须 使 用 transformToPair， 原 因 是 读 取 进 来 的 

* Kafka 的 数据 是 Pair<String, String> 类 型 的 ， 另 外 一 个 原因 是 过 滤 后 
* 的 数据 要 进行 进一步 处 理 ,所 以 必须 是 读 进来 的 Kafka 数据 的 原始 类 型 DStream< 
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* String, String> 
119。 本 
2- * 在 此 再 次 说 明 : 每 个 Batch Duration 中 输入 的 数据 就 是 被 一 个 且 仅仅 被 一 个 RDD 封 
* 装 的 , 你 可 以 有 多 个 InputDstream, 但 是 其 实在 产生 Job 的 时 候 , 这 些 不 同 的 InputDstream 
* 在 BatchDuration 中 相当 于 Spark 基于 HDFS 数据 操作 的 不 同文 件 来 源 
2 */ 





225 JavaPaiTrDStream<String，String> filteredadclickedSstreaming = adclickedstreaming 
有 .transformToPair (new Function<JavaPairRDD<String, String>, 
JavaPairRDD<String, String>>() { 
124. 
2 QOverride 
3265 public JavaPairRDD<String, String> call (JavaPair RDD< 
String, String> rdd) throws Exception { 
27、 WW 
T2828 * 在 线 黑 名 单 过 滤 思 路 步骤 : 
1T29 * @ 从 数据 库 中 获取 黑 名 单 转换 成 RDD， 即 新 的 RDD 实例 封装 黑 名 
* 单数 据 ; 
130 . * @) 把 代表 黑 名 单 的 RDD 的 实例 和 BatchDuration 产 生 * 的 RDD 
* 进行 Join 操作 ， 准 确 的 说 ， 是 进行 leftouterJoin 操作 ， 也 就 是 
* 使 用 BatchDuration 产生 的 RDD 和 代表 黑 名 单 的 RDD 的 实例 进行 
* leftOuterJoin 操作 ， 如 果 两 者 都 有 内 容 ， 就 会 是 true， 和 否则 
* 就 是 false; 
3 * 我 们 要 留 下 的 是 leftouterJoin 操作 结果 ， 为 false; 
2 来 
335 到 
345 
上 局 final List<String> blackListNames = new ArrayList< 
String> (ls 
36: JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance () ; 
区 jdbcWrapper .doQuery ("SELECT * FROM blacklisttable", null, 
new ExecuteCallBack() { 
加 
39- @Override 
40 . public void resultCallBack (ResultSet result) throws 
Exception{ 
41. 
2 while (result.next()) { 
43. 
44. blackListNames.add (result .getString (1)); 
六 ] 
46. } 
I 
148. 1); 
149. 
了 50 List<Tuple2<String, Boolean>> blackListTuple=new ArrayList< 
Tuple2<String, Boolean>>(); 
S51. 
2 for (String name : blackListNames) { 
153: blackListTuple.add (new Tuple2<String, 
Boolean> (name, true)); 
154. | 
JS 


"669。 
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局 
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hi 


160. 
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69 . 
了 
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2 
3: 
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有 2 
4835 
184. 
了 SS 


186. 
41487 
188. 


189. 
190. 


“Bs 


List<Tuple2<String, Boolean>>blackListFromDB=blackListTuple; 
// 数 据 来 自 于 查询 的 黑 名 单 表 并 且 映 射 成 为 <String, Boolean> 


JavaSparkContext jsc = new JavaSpark Context (rdd. 
context ()); 


/** 

* 黑 名 单 的 表 中 只 有 userID， 但 是 如 果 要 进行 Join 操作 ， 就 必须 
* 是 Key-Value， 所 以 这 里 我 们 需要 基于 数据 表 中 的 数据 产生 

* Key-Value 类 型 的 数据 集合 

A 

JavaPairRDD<String, Boolean> blackListRDD = 
jsc.parallelizePairs (blackListFromDB); 


/** 

* 进行 操作 的 时 候 肯 定 是 基于 userID 进行 Join 的 , 所 以 必须 把 传 
* 入 的 RDD 进行 mapToPair 操作 转化 成 为 符合 格式 的 RDD 

* 

* 广告 点 击 的 基本 数据 格式 : timestamp、ip、userID、adID、 
* province、, city 


*/ 


JavaPairRDD<String, Tuple2<String, String>> 
rdd2Pair = rdd 
.mapToPair (new PairFunction<Tuple2< String, 
String>, String, Tuple2< String, String>>() { 


@Override 
public Tuple2<String, Tuple2<String, String>> call 
(Tuple2<String, String> 七 ) 
throws Exception { 
String userID = t. 2.split("\t") [2]; 
return new Tuple2<String, Tuple2< 
String, String>>(userID, t); 


1D); 


JavaPairRDD<String, Tuple2<Tuple2<String, String>, 
Optional<Boolean>>>joined=rdd2Pair 
.leftOuterJoin (blackListRDD); 


JavaPairRDD<String, String> result= joined.filter( 
new Function<Tuple2<String, Tuple2< 
Tuple2<String, String>, Optional< 
Boolean>>>, Boolean>() { 


@Override 
public Boolean call (Tuple2<String, Tuple2< 
Tuple2<String, String>, Optional< Boolean>>> v1) 
throws Exception { 
Optional<Boolean> optional = v1. 2. 2; 
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if (optional .isPresent () &g&optional .get ()){ 
return false; 
} else { 
return true; 


} 
}) .mapToPair( 
new PairFunction<Tuple2<String, Tuple2< Tuple2< 
String, String>,Optional<Boolean>>>, String, 
String>() { 


@Override 
public Tuple2<String, String> calll( 
Tuple2<String, Tuple2<Tuple2< String, 
String>, Optional<Boolean>>> 七 ) 
throws Exception { 
// TODO Auto-generated method stub 
retarn 七 5 2 1s 


return result; 
DD); 
filteredadClickedStreaming.print (); 


/* 

* 第 四 步 : 接 下 来 就 像 对 于 RDD 编程 一 样 , 基于 DStream 进行 编程 ! ! ! 原因 是 DStream 
是 RDD 产生 的 模板 (或 者 说 类 ) ， 在 Spark Streaming 具体 发 生计 算 前 ， 其 实质 是 把 每 
* 个 Batch 的 DStream 的 操作 翻译 成 为 对 RDD 的 操作 ! ! ! 

* 对 初始 的 DStream 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 高 阶 
* 函数 等 的 编程 ， 进 行 具体 的 数据 计算 

* 广告 点 击 的 基本 数据 格式 : timestamp、ip、userID、adID、province、 city 

*/ 


关 


JavaPairDStream<String，Long> pairs = filteredadClickedStreaming 
.mapToPair (new PairFunction<Tuple2<String, String>, 
String, Long>() { 


Q@Override 
public Tuple2<String, Long> call (Tuple2<String, 
String> 七 ) throws Exception { 

String[] splited = t. 2.split("\t"); 


String timestamp = splited[0]; // yyyy-MM-dd 
String ip = splited[1]; 

String userID = splited[2]; 

String adID = splited[3]; 

String province = splited[4]; 

String city = splited[5]; 


String clickedRecord = timestamp + " " + ip 


rlD ei dlD tr 2 DVLnCeT 区间 
Petys 


“GIs 


中 篇 “商业 案例 








2395 
240. 
241. 
242. 
243. 
244. 


245. 


246. 
247. 
248. 


249. 
250. 
3 
4 
人 253 
254. 
2 
PT 
全 
5 
9 
260 . 


261 


之 62 - 


23 


264. 


265- 


266. 
267. 


268 . 
这 和 9 
这 了 DR 
ils 
2 
全 
274 . 
5 


LO 
这 
TS 
Ss 
280. 
入 虽 
2825 
283- 


= 


return new Tuple2<String, Long> (clickedRecord, 1L) 7 
上 
I 


/** 
* 第 四 步 : 对 初始 的 DStream 进行 Transformation 级 别 的 处 理 , 如 通过 map、 filter 
* 等 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 
* 计算 每 个 Batch Duration 中 每 个 User 的 广告 点 击 量 
*/ 
JavaPairDStream<String，Long> adClickedUsers = pairs.reduce 
ByKey (new Function2<Long, Long, Long>() { 


@Override 
public Long call (Long vl, Long v2) throws Exception { 
// 待 办 事项 : 自动 生成 方法 存根 


return v1 + v2; 


* 计算 出 什么 叫 有 效 的 点 击 ? 

* (D 对 于 复杂 化 的 ， 一 般 都 采用 机 器 学 习 训练 好 模 261 .型 直接 在 线 进行 过 滤 ; 

* @) 对 于 简单 的 ， 可 以 通过 一 个 BatchDuration 中 的 点 击 次 数 判断 是 不 是 非法 广告 点 
* 击 ， 但 是 实际 上 ， 非 法 广告 点 击 程序 会 尽 可 能 模拟 真实 的 广告 点 击 行为 ， 所 以 通过 一 个 
* Batch 来 判断 是 不 完整 的 ， 我 们 需要 对 例如 一 天 (也 可 以 是 每 个 小 时 ) 的 数据 进行 判断 ! 
* @ 比 在 线 机 器 学 习 退 而 求 次 的 做 法 如 下 : 例如 ， 一 段 时 间 内 ， 同 一 个 IP (MAC 地 址 》 

* 有 多 个 用 户 的 账号 访问 ， 

* 例如 : 可 以 统一 一 天 内 一 个 用 户 点 击 广告 的 次 数 ， 如 果 一 天 内 点 击 同样 的 广告 操作 50 

* 次 ， 就 列 入 黑 名单 ; 

素 


* 黑 名 单 有 一 个 重要 的 特征 : 动态 生成 ! ! ! 所 以 ， 每 个 Batch Duration 都 要 考虑 是 
* 否 有 新 的 黑 名单 加 入 ， 此 时 黑 名 单 需要 存储 起 来 

* 具体 存储 在 什么 地 方 呢 ? 存储 在 DB/Redis 中 即 可 ; 

* 例如 ， 邮 件 系统 中 的 “ 黑 名单 ”， 可 以 采用 Spark Streaming 不 断 地 监控 每 个 用 户 
* 的 操作 ， 如 果 用 户 发 送 邮件 的 频率 超过 了 设 定 的 值 ， 则 可 以 暂时 把 用 户 列 入 “ 黑 名 单 ”， 从 
* 而 阻止 用 户 过度 频 繁 的 发 送 邮件 

来 


*/ 


JavaPairDstream<String, Long> filtereqdClickInBatch = adClickedUsers 
.filter (new Function<Tuple2<String, Long>, Boolean> (){ 


Q@Override 
public Boolean call (Tuple2<String, Long> v1) throws 
Exception { 
(1 
// 更 新 黑 名 单 的 数据 表 
return false; 
} else { 
return true; 


} 
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284. 
285。 
286. 


287s 





2 


/* 
* 此 处 的 print 并 不 会 直接 发 出 Job 的 执行 ， 因 为 现在 的 一 切 都 在 Spark Streaming 
* 框架 的 控制 下 ， 对 于 Spark Streaming 而 言 ， 具 体 是 否 触发 真正 的 Job 运行 是 基于 设置 
* 的 Duration 时 间 间 隔 的 





要 注意 ，Spark Streaming 应 用 程序 要 想 执行 具体 的 Job， 对 Dtream 就 必须 有 
output Stream 操作 ，output Stream 有 很 多 类 型 的 函数 触发 ， 如 print、 
saveAsTextFile、saveAsHadoopFiles 等 ， 最 重要 的 一 个 方法 是 foraeachRDD， 


因为 Spark Streaming 处 理 的 结果 一 般 都 会 放 在 Redis、DB、DashBoard 等 上 面 ， 
foreachRDD 


主要 就 是 用 来 完成 这 些 功能 的 ， 而 且 可 以 随意 地 自 定义 具体 数据 到 底 放 在 哪里 ! 


类 


ww/ 


filteredClickInBatch.foreachRDD (new Function<JavaPairRDD<String, 
Long>, Void>() { 


@Override 
public Void call (JavaPairRDD<String, Long> rdd) throws Exception{ 


if (rdd.isEmpty()) { 


} 
rdd.foreachPartition (new VoidFunction<Iterator<Tuple2< String, 
Long>>>() { 


Q@Override 
public void call (Iterator<Tuple2<String, Long>> partition) 


throws Exception { 
/** 


* 这 里 我 们 使 用 数据 库 连接 池 的 高 效 读 写 数据 库 的 方式 把 数据 写 入 
* 数据 库 MySQL; 

* 由 于 传 入 的 参数 是 一 个 Iterator 类 型 的 集合 , 所 以 为 了 更 加 高 效 
* 地 操作 ， 我 们 需要 批量 处 理 。 

* 例如 ， 一 次 性 插入 1000 条 Record， 使 用 insertBatch 或 者 

* updateBatch 类 型 的 操作 ; 

插入 的 用 户 信 息 可 以 只 包含 timestamp、ip、userID、adID、 
province, city 

这 里 有 一 个 问题 : 可 能 出 现 两 条 记录 的 Key 是 一 样 的 情况 , 此 时 就 
* 需要 更 新 累加 操作 

eA 


闪闪 状 


List<UserAdClicked> userAdClickedList = new 
ArrayList<UserAdClicked> (); 


while (partition.hasNext()) { 
Tuple2<String, Long> record = partition.next(); 
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674: 


String[] splited = record. 1.split(™ "); 
UserAdClicked userClicked = new UserAdClicked(); 


userClicked.setTimestamp (splited[0]); 
userClicked.setIp(splited[1]); 
userClicked.setUserID(splited[2]); 
userClicked.setAdID (splited[3]); 
userClicked.setProvince (splited[4]); 
userClicked.setCity(splited[5]); 
userAdClickedList.add(userClicked); 


} 


final List<UserAdClicked> inserting = new ArrayList< 
UserAdclicked> (); 
final List<UserAdClicked> updating = new ArrayList< 
UserAdclicked> (); 


JDBCWrapper jdbcWrapper = JDBCWrapper .getJDBCInstance(); 


// 点 击 
// 表 的 字段 : timestamp、ip、 userID、 adID、 province、 city、 
//clickedCount 
for (final UserAdClicked clicked:userAdClickedList) { 
jdbcWrapper.doQuery( 
"SELECT count (1) FROM adclickedWHERE" 
+ " timestamp = ? AND userID = ? 
AND adID = 2", 
new Object[] { clicked.get Timestamp(), 
clicked.getUserID(), clicked.getAdID() }, 
new ExecuteCallBack() { 


@Override 
public void resultCallBack (ResultSet result) 
throws Exception { 


if (result.getRow() != 0) { 
long count = result.getLong (1); 
clicked.setClickedCount (count); 
updating.add (clicked); 


} else { 
clicked.setClickedCount (0L); 
inserting.add (clicked); 


// 点 击 

// 表 的 字段 : timestamp、ip、userID、adID、 province、 city、 
//clickedCount 
ArrayList<Object[]>insertParametersList=newArrayList< 
Object[]>(); 

for (UserAdClicked inserRecord : inserting) { 
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369. insertParametersList.add (new Object[] {inserRecord. 
getTimestamp(), inserRecord.getIp(), 
10s inserRecord.getUserID () , inserRecord. getAdID(), 
inserRecord.getProvince () ， 
YS inserRecord.getCity(), inserRecord. 
getClickedCount () }); 
S72 } 
2 攻略 jdbcWrapper.doBatch ("INSERT INTO adclicked VALUES 
(2,2,2,2,2,?,2)", insertParametersList); 
374. 
S35 // 点 击 
3765 // 表 的 字段 : timestamp、ip、 userID、 adID、 province、 city、 
//clickedCount 
S723 ArrayList<Object[]>updateParametersList=newArrayList< 
Object[]>(); 
定语 for (UserAdClicked updateRecord : updating) { 
人 795 updateParametersList.add (new Object[] 
{fupdateRecord.getTimestamp () ,updateRecord. 
getIp(), 
380. UpdateRecord.getUserID() , updateRecord. getAdID(), 
updateRecord.getProvince(), 
381- updateRecord.getCity(), 
updateRecord.getClickedCount () }) 7 
2 } 
83 jdbcWrapper.doBatch ("UPDATE adclicked set 
clickedCount = ? WHERE " 
384. + " timestamp = ? AND ip = ? AND userID 
= ? AND adID = ? AND province = ? " 
3855 + "AND city = ? ", updateParametersList); 
386. 
SO } 
388. by 
3895 return null; 
390。 } 
os 
号 92= Fy 
393. 
394. JavaPairDStream<String, Long> blackListBasedOonHistory = filtered 
ClickInBatch 
3 .filter (new Function<Tuple2<String, Long>, Boolean>() { 
396s 
397e Q@Override 
398 . public Boolean call (Tuple2<String, Long> v1) throws Exception{ 
有 995 // 广 告 点 击 的 基本 数据 格式 : timestamp、ip、userID、adID、 
//province、, city 
400. 
401. Stringtll splited = vi Tespllllm wy 
402. String date = splited[0]; 
4035 
404. String userID = splited[2]; 
405. String adID = splited[3]; 
406. 
407. /** 
408. * 接 下 来 根据 date、userID、adID 等 条 件 查询 用 户 点 击 广告 的 数 


* 据 表 ， 获 得 总 的 点 击 次 数 


“0 
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* 这 时 基于 点 击 次 数 判 断 是 否 属于 黑 名 单 点 击 * 
#7 


int clickedCountTotalToday = 81; 


if (clickedCountTotalToday > 50) { 
return true; 

} else { 
return false; 


} 


} 
| 


/** 
2 RDD 进行 去 重 操 作 ! 


JavaDStream<String> blackListuserIDtBasedOnHistory = blackListBased 
OnHistory 
-map (new Function<Tuple2<String, Long>, String>() { 


Q@Override 
public String call (Tuple2<String, Long> v1)throws Exception{ 
// 待 办 事项 : 自动 生成 方法 存根 


reEurn wl .epiitt EZl 
} 
Ts 


JavaDStream<String> blackListUniqueuserIDtBasedOnHistory = 
blackListuserIDtBasedOnHistory 
-transform(new Function<JavaRDD<String>, JavaRDD<String>>(){ 


Q@Override 
public JavaRDD<String> call (JavaRDD<String> rdd) 
throws Exception { 


// 待 办 事项 ， 自 动 生 成 方法 存根 


return rdd.distinct (); 
1 
}) 7 


// 下 一 步 写 入 黑 名 单数 据 表 中 


blackListUnidqueuserIDtBasedOnHistory.foreachRDD (new Function<JavaRDD< 
String>, Void>() { 


@Override 
public Void call (JavaRDD<String> rdd) throws Exception { 
rdd.foreachPartition (new VoidFunction<Iterator<String>>() { 


Q@Override 


public void call (Iterator<String> t) throws Exception { 
/** 


* 这 里 我 们 使 用 数据 库 连 接 池 的 高 效 读 写 数据 库 的 方式 把 数据 写 入 
* 数据 库 MySsQL; 
* 由 于 传 入 的 参数 是 一 个 Iterator 类 型 的 集合 , 所 以 为 了 更 加 高 效 
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* 地 操作 ， 我 们 需要 批量 处 理 
*# 例如 ， 一 次 性 插入 1000 条 Record， 使 用 insertBatch 或 者 
* UpdateBatch 类 型 的 操作 ; 
* 插入 的 用 户 信息 可 以 只 包含 useID, 此 时 直接 插入 黑 名 数据 表 即 可 
和 这 


List<Object[]> blackList = new ArrayList< 
Object[]>(); 


while (t.hasNext()) { 

blackList.add (new Object[]{ (Object)t.next ()}); 
} 
JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance () 7 
jdbcWrapper.doBatch ("INSERT INTO blacklisttable 
VALUES (?) ", blackList); 


1D); 


return null; 


/** 
* 广告 点 击 累计 动态 更 新 , 每 个 updateStateByKey 都 会 在 BatchDuration 的 时 间 间 
* 隔 的 基础 上 进行 更 高 点 击 次 数 的 更 新 ， 更 新 之 后 ， 我 们 一 般 都 会 持久 化 到 外 部 存储 设备 
* 上 ， 这 里 我 们 存储 到 MySQL 数据 库 中 
Ah 
JavaPairDStream<String, Long> updateStateByKeyDStream = 
filteredadClickedStreaming 
.mapToPair (new PairFunction<Tuple2<String, String>, 
String, Long>() { 


Q@Override 
public Tuple2<String, Long> call(Tuple2<String, 
String> 七 ) throws Exception { 

Stringll splited = t. 2-3plit("\t")s; 


String timestamp = splited[0]; // yyyy-MM-dd 
String ip = splited[1]; 

String userID = splited[2]; 

String adID = splited[3]; 

String province = splited[4]; 

String city = splited[5]; 


String clickedRecord = timestamp + " " + adID 
EOvince Fm wp cltys 


return new Tuple2<String, Long> (clicked Record, 1L); 
} 
}) .updatestateByKey (new Function2<List<Long>,Optional<Long>, 
Optional<Long>>() { 


QOverride 


public Optional<Long> call (List<Long> v1,Optional<Long> 
V2) throws Exception { 


“Ors 
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} 


@Override 
public Void call (JavaPairRDD<String, Long> rdd) throws 
Exception { 
rdd.foreachPartition (new VoidFunction<Iterator< Tuple2< 
String, Long>>>() { 


/** 
*# V1 :代表 当前 的 Key 在 当前 的 Batch Duration 中 出 现 次 数 的 集 
Wer ll de ele 
* V2 :代表 当 前 Key 在 以 前 的 BatchDuration 中 积累 下 来 的 结果 
ww 

Long clickedTotalHistory = 0L; 

if (v2.isPresent()) { 

clickedTotalHistory = v2.get(); 

} 


for (Long one : vl) { 
clickedTotalHistory += one; 
} 


return Optional.of (clickedTotalHistory); 


updateStateBYKeyDStream. foreachRDD (new Function<JavaPairRDD< String, 
Long>, Void>() { 


Q@Override 
public void call(Iterator<Tuple2<String, Long>> 
partition) throws Exception { 


/** 
* 这 里 我 们 使 用 数据 库 连 接 池 的 高 效 读 写 数据 库 的 方式 把 数据 写 入 
* 数据 库 MySQL; 
* 由 于 传 入 的 参数 是 一 个 Iterator 类 型 的 集合 ,所 以 为 了 更 加 高 效 
* 地 操作 ， 我 们 需要 批量 处 理 
* 例如 ， 一 次 性 插入 1000 条 Record， 使 用 insertBatch 或 者 
* updateBatch 类 型 的 操作 ; 

* 插入 的 用 户 信息 可 以 只 包含 timestamp、adID、province、city 
* 这 里 有 一 个 问题 : 可 能 出 现 两 条 记录 的 Key 是 一 样 的 情况 ,此 时 就 
* 需要 更 新 累加 操作 
*/ 


List<AgdClicked> adClickedList = new ArrayList< 
AdClicked> (); 


while (partition.hasNext()) { 
Tuple2<String, Long> record = partition.next(); 


String[] splited = record. 1.split(" "); 


AdClicked adClicked = new AdClicked(); 
adClicked.setTimestamp (splited[0]); 
adClicked.setAdID (splited[1]); 
adClicked.setProvince(splited[2]); 
adClicked.setCity(splited[3]); 
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adClicked.setClickedCount (record. 2); 
adClickedList.add(adClicked); 
} 
JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance (); 
final List<AdClicked> inserting = new ArrayList< 


AdClicked>(); 
final List<AdClicked> updating = new ArrayList< 


AdClicked>(); 
// 点 击 
// 表 的 字段 : timestamp、ip、 userID、 adID、 province、 city、 
//clickedCount 
for (final AdClicked clicked : adClickedList){ 
jdbcWrapper.doQuery( 
"SELECT count(1) FROM adclickedcount 
WHERE " 


+ "timestamp = ? AND adID = ? AND 
province = ? RND city = ? ", 
new Object [] { clicked.getTimestamp(), clicked. 
getRdID () clicked. getProvince ()， 
clicked.getCity() }, 
new ExecuteCallBack() { 


@Override 
public void resultCallBack (ResultSet 
result) throws Exception { 


if (result.getRow() != 0) { 


long count = result.getLong(1); 
clicked.setClickedCount (count); 
updating.add (clicked); 


} else { 
inserting.add(clicked); 


// 点 击 
// 表 的 字段 : timestamp、ip、userID、 adID、 province、 city、 
//clickedCount 
ArrayList<Object[]> insertParametersList = new 
ArrayList<Object[]>(); 
for (AdClicked inserRecord : inserting) { 
insertParametersList.add (new Object[] 
{ inserRecord.getTimestamp(), inserRecord. 
getAdID(), 
inserRecord.getProvince(), inserRecord. 
getCity(),inserRecord.getClickedCount () }); 
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} 
jdbcWrapper .doBatch ("INSERT INTO adclickedcount 
VALUES (?,?,?,?,?)", insertParametersList); 


// 点 击 

// 表 的 字段 : timestamp、ip、userID、 adID、province、 city、 

//clickedCount 

ArrayList<Object[]> updateParametersList = new ArrayList< 

Object[]>(); 

for (AdClicked updateRecord : updating) { 
updateParametersList.add (new Object[] 

{ updateRecord.getClickedCount ()， 
updateRecord.getTimestamp (), updateRecord. 
getAdID(),updateRecord.getProvince(), 
updateRecord.getCity() }); 

} 
jdbcWrapper.doBatch( 
"UPDATE adclickedcount set clickedCount = ? 
WHERE " 
+ " timestamp = ? RND adID = ? 
AND province=? RND city = ? "v 
updateParametersList) 


} 
Fs 


return null; 


/** 
* 对 广告 点 击 进行 TopN 的 计算 ， 计 算出 每 天 每 个 省 份 的 Top5 排名 的 广告 ， 因 为 我 们 直 
* 接 对 RDD 进行 操作 ， 所 以 使 用 了 transform 算 子 
*/ 


updateStateByKeyDStream.transform (new Function<JavaPairRDD< String, Long>, 
JavaRDD<Row>>() { 


@Override 
public JavaRDD<Row> call (JavaPairRDD<String, Long> rdd) 
throws Exception { 


JavaRDD<Row> rowRDD = rdd.mapToPair (new PairFunction< Tuple2< 
String, Long>, String, Long>() { 


Q@Override 
public Tuple2<String, Long> call (Tuple2<String, Long> 七 ) 
throws Exception { 

Stringll splited =° Et. LI splet( ms 


String timestamp = "2016-07-10"; // yyyy-MM-dd 


String adID = splited[1]; 
String province = splited[2]; 


String clickedRecord' = timestamp + "~" + adID tT "~" 
+ province; 
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return new Tuple2<String, Long> (clickedRecord,t. 2); 
}) .reduceByKey (new Function2<Long, Long, Long>() { 


QOverride 

public Long call (Long v1, Long v2) throws Exception { 
// 待 办 事项 : 自动 生成 方法 存根 
return vl + v2; 


} 
}) .map (new Function<Tuple2<String, Long>, Row>() { 


QOverride 
public Row call (Tuple2<String, Long>v1) throws Exception { 
SEEing[] splited = vl: 1.3plit(" ™); 


String timestamp = "2016-07-10"; // yyyy-MM-dd 
String adID = splited[1]; 
String province = splited[2]; 


return RowFactory.create(timestamp, adID,province, 
VI 2 


]) 7 


StructType structType = DataTypes.createStructType( 
Arrays.asList (DataTypes.createStructField 
("timstamp", DataTypes.StringType, true), 
DataTypes.createstructField ("adID", 
DataTypes.StringType, true), 
DataTypes .createStructField("province", 
DataTypes.StringType, true), 


DataTypes.createSstructField("clickedCount", Data Types. 
LongType, true))); 


HiveContext hiveContext = new HiveContext (rdd.context ()); 
DataFrame df = hiveContext.createDataFrame (rowRDD, structType); 
df.registerTempTable ("topNTableSource"); 


String IMFsqlText = "SELECT timstamp,adID,province, 
clickedCount FROM " 
+ " ( SELECT timstamp,adID,province,clickedCount, 
row number() " 
+ "OVER ( PARTITION BY province ORDER BY clickedCount 
DESC }) Tank 
+ " FROM topNTableSource ) subquery " + " WHERE rank 
< 


DataFrame result = hiveContext.sql (IMFsqlText); 


return result.toJavaRDD(); 


}) .foreachRDD (new Function<JavaRDD<Row>, Void>() { 


“681® 
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679. 

680. @Override 

681. public Void call (JavaRDD<Row> rdd) throws Exception { 

682. 

683. rdd.foreachPartition (new VoidFunction<Iterator<Row>>(){ 

684. 

685. QOverride 

686. public void call (Iterator<Row> t)throws Exception{ 

687. 

688. List<AdProvinceTopN> adProvinceTopN = new 
ArrayList<AdProvinceTopN> (); 

689. 

690. while (t.hasNext()) { 

S91 Row row = t.next(); 

692- 

693 。 AdProvinceTopN item = new RdProvinceTopN () ; 

694. item.setTimestamp (row.getString (0)); 

955 item.setAdID (row.getString (1)); 

696. item.setProvince (row.getstring (2)); 

5975 

698. item.setClickedCount (row.getLong (3)); 

699 . 

700 . adProvinceTopN.add (item) ; 

了 01= } 

了 025 

了 由 三 汪 JDBCWrapper jdbcWrapper = JDBCWrapper .getJDBCInstance () 

704. 

了 0955 Set<String> set = new HashSet<string>(); 

IOGs for (AdProvinceTopN item : adProvinceTopN) { 

TT set.add (item.getTimestamp ()+" "+item.getProvince()); 

708. } 

709 . 

0 // 点 击 

TI // 表 的 字段 : timestamp、ip、 userID、 adID、 province、 city、 
//clickedCount 

Ya 2 ArrayList<Object[]> deleteParametersList = 
new ArrayList<Object[]>(); 

3 for (String deleteRecord : set) { 

T7145 String[] splited = deleteRecord.split(" "); 

亲 所 江 语 deleteParametersList.add (new Object[] { splited[0], 

splited[1] }); 

6 } 

TT jdbcWrapper .doBatch ("DELETE FROM adprovincetopn WHERE 
timestamp = ? AND province = 2?", 

了 ES: deleteParametersList); 

TO 

V20R // 广 告 点 击 每 个 省 份 的 TopN 排名 

学 2 // 表 的 字段 : timestamp、adID、province、clickedCount 

2 ArrayList<Object[]> insertParametersList = 
new ArrayList<Object[]>(); 

3 for (AdqProvinceTopN updateRecord:adProvinceTopN) { 

Yr insertParametersList.add (new Object[] {updateRecord. 

getTimestamp () ,updateRecord.getAdID(), 
a updateRecord.getProvince () ,updateRecord. 


getClickedCount () }) 


= 
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20s } 
Ts jdbcWrapper .doBatch ("INSERT INTO adprovincetopn VALUES 
(2,2,2,2) ", insertParametersList); 
28 
29. } 
30% ]) > 
7 了 731: 
2 return null; 
733, 
734. } 
39 Es 
3 
T3T7 /证 
* 计算 过 去 半 个 小 时 内 广告 点 击 的 趋势 用 户 广告 点 击 信息 可 以 只 包含 timestamp、ip、 
* userID, adID、 province、 city 
383 */ 
了 全 全 
740 . filteredadClickedStreaming.mapToPair (new PairFunction< Tuple2< 
String, String>, Strang Long>() | 
741. 
742. @Override 
Ta3 public Tuple2<String, Long> call (Tuple2<String, String>t) throws 
Exception { 
744. String[] splited = t: 2.5plit("\E")? 
745. 
746. String adID = splited[3]; 
TAT: 
748. String time = splited[0]; 
//Todo: 后 续 需 要 重 构 代码 实现 时 间 惟 和 分 钟 的 转换 提取 ， 此 处 需要 提取 出 该 
// 广 告 的 点 击 分 钟 单 位 
了 9 
SO return new Tuple2<String, Long>(time + " " + adID, 11); 
ys } 
D2 }) .reduceByKeyAndWindow (new Function2<Long, Long, Long>() { 
We 
Wi @Override 
WA public Long call (Long vl, Long v2) throws Exception { 
756. // 待 办 事项 : 自动 生成 方法 存根 
TS return v1 + v2; 
758- } 
OE }, new Function2<Long, Long, Long>() { 
760 . 
6 GOverride 
OZ public Long call (Long v1, Long v2) throws Exception { 
763. // 待 办 事项 : 自动 生成 方法 存根 
764 . return v1 - v2; 
了 .692 } 
766. }, Durations.minutes(30), Durations.minutes (1) ) .foreachRDD 
(new Function<JavaPairRDD<String, Long>, Void>() { 
677. 
768. @Override 
T1695 public Void call (JavaPairRDD<String, Long> rdd) throws Exception{ 
770. rdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String, 
Long>>>() { 
多 
a @Override 
T7173. public void call (Iterator<Tuple2<String, Long>> 
partition) throws Exception { 
A 
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5 List<AdTrendStat> adTrend = new ArrayList<AdTrendstat>(); 
6 
时 记忆 丘 while (partition.hasNext()) { 
78 Tuple2<String, Long> record = partition.next(); 
779. String[] splited = record. 1.split("” "); 
780. String time = splited[0]; 
ele String adID = splited[1]; 
2 Long clickedCount = record. 2; 
7335 
784. 4 
TE * 在 插入 数据 到 数据 库 的 时 候 具 体 需要 哪些 字段 ? time、 
* adID、 clickedCount; 
786. * 而 我 们 通过 J2EE 技术 进行 趋势 绘图 的 时 候 肯 定 是 需要 年 、 


* 月 、 日 、 时 、 分 这 些 维度 的 ， 所 有 我 们 在 这 里 需要 年 、 月 、 日 、 
* 小 时 、 分 钟 这 些 时 间 维 度 


TOT */ 

788. 

789. AdTrendStat aqTrendStat = new AdTrendstat (); 

790. adTrendStat.setAdID (adID); 

ods adTrendStat .setClickedCount (clickedCount); 

TO adTrendstat.set date (time);//Todo: 获 取 年 月 日 

793. adTrendstat .set hour (time);//Todo: 获 取 小 时 

794 . adTrendstat .set minute (time);//Todo: 获 取 分 钟 

De 

796. adTrend.add (adTrendStat) 

了 9 

98= 

9 1 

800 . 

BD35 final List<AdTrendStat> inserting = new ArrayList< 

AdTrendstat>(); 
802. final List<RdTrendStat> updating = new ArrayList< 
AdTrendstat>(); 

803. 

804. JDBCWrapper jdbcWrapper = JDBCWrapper .getJDBCInstance(); 

805 . 

806. // 广 告 点 击 趋势 

807 . // 表 的 字段 : date、hour、 minute、adID、clickedCount 

808. for (final AdTrendStat clicked : adTrend) { 

809. final AdTrendCountHistory adTrendCount 

History = new AdTrendCountHistory(); 

810. 

Js jdbcWrapper.doQuery( 

812- "SELECT count (1) FROM adclickedtrend 
WHERE " 

813. + " date = ? AND hour = ? 

AND minute=?AND adID =?"， 

814. new Object[] { clicked.get date(), 
clicked.get hour(),clicked.get minute(), 

ES clicked.getAdID() }, 


684: 
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new ExecuteCallBack() { 


Q@Override 
public void resultCallBack (ResultSet 
result) throws Exception { 


if (result.getRow() != 0) { 
long count = result.getLong(1); 
adTrendCountHistory.set ClickedCount 
History (count); 
updating.add (clicked); 

} else { 
a 


inserting.add(clicked); 


// 广 告 点 击 趋势 

// 表 的 字段 : date、hour、 minute、 adID、clickedCount 
ArrayList<Object[]> insertParametersList = new 
ArrayList<Object[]>(); 

for (AdTrendStat inserRecord : inserting) { 


insertParametersList 
-add (new Object[] { inserRecord.get date(), 


inserRecord.get hour () , inserRecord. 
get minute(), inserRecord.getAdID(), 
inserRecord.getClicked Count ()}); 


jdbcWrapper.doBatch ("INSERT INTO adclickedtrend 
VALUES (?,?,?,?,?)",insertParametersList); //IMF 
//BUG 
//FIXED 


// 广 告 点 击 趋势 

// 表 的 字段 : date、hour、minute、adID、clickedCount 

ArrayList<Object[]> updateParametersList = 

new ArrayList<Object[]>(); 

for (AdTrendStat updateRecord : updating) { 
updateParametersList.add (new Object[] 

{ updateRecord.getClickedCount () ， 
updateRecord.get date(),updateRecord. 
get hour () ,updateRecord.get minute(), 
updateRecord.getAdID() }); 


jdbcWrapper.doBatch ("UPDATE adclickedtrend 
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set clickedCount = ? WHERE " 
+ " date = ? AND hour = ? AND minute 
=?AND adID=?", updateParametersList); 


} 
1 


return null; 


/** 
*Spark Streaming 执行 引擎 也 就 是 Driver 开始 运行 ，Driver 启动 时 是 位 
* 于 一 条 新 的 线程 中 的 ， 当 然 其 内 部 有 消息 循环 体 ， 用 于 接收 应 用 程序 本 身 或 者 
*Executor 中 的 消息 
*/ 


jsc:start()s 


jsc.awaitTermination(); 
jsc.close(); 


’ 
class JDBCWrapper { 


private static LinkedBlockingQueue<Connection> dbConnectionPool 
= new LinkedBlockingQueue<Connection> (); 


private static JDBCWrapper jdbcInstance = null; 


static { 
try { 
Class.forName ("com.mysql .jdbc.Driver"); 
} catch (ClassNotFoundException e) { 
// 待 办 事项 : 自动 生成 catch 块 


e-pLintStackTrace (); 
1 


public static JDBCWrapper getJDBCInstance () { 
if (jdbcInstance == null) { 


synchronized (JDBCWrapper.class) { 
if (jdbcInstance == null) { 
jdbcInstance = new JDBCWrapper (); 
} 


} 


return jdbcInstance; 


} 
private JDBCWrapper() { 


Eory (nt T= "0 Le TO% TEE FE 
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try { 
Connection conn = DriverManager. getConnection 
("jdbc:mysql://Master:3306/sparkstreaming", "root"™, 
TIE 七 史 拓 有 
dbCconnectionPool.put (conn) 
} catch (Exception e) { 
// 待 办 事项 : 自动 生成 catch 块 


e.printSstackTrace (); 


|: 


public synchronized Connection getConnection() { 
while (0 == dbConnectionPool.size()) { 
try { 
Thread.sleep (20); 
} catch (InterruptedException e) { 
// 待 办 事项 : 自动 生成 catch 块 


e.printstackTrace (); 
} 


return dbConnectionPool .poll (); 


; 


public int[] doBatch (String sqlText, List<Object[]> paramsList) 


Connection conn = getConnection(); 
PreparedStatement preparedStatement = null; 
int[] result = null; 
try { 
conn.setAutoCommit (false); 
PreparedStatement = conn.prepareStatement (sqlText); 


for (Object[] parameters : paramsList) { 
for (int i = 0; i < parameters.length; i++) { 
preparedStatement .setObject (i + 1, parameters[i]); 


preparedStatement .addBatch (); 
} 


result = preparedStatement .executeBatch (); 
conn.commit (); 


} catch (Exception e) { 
// 待 办 事项 : 自动 生成 catch 块 
e.printstackTrace () 7 
} finally { 
if (PreparedStatement != null) { 
try { 
preparedStatement .close(); 
} catch (SQLException e) { 
// 待 办 事项 : 自动 生成 catch 块 


e.printSstackTrace (); 
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jf 


1£° (conn = nal 
try 
dbConnectionPool .put (conn); 
} catch (InterruptedException e) { 
// 待 办 事项 : 自动 生成 catch 块 


e.printSstackTrace (); 


上 


return result; 


上 


public void doQuery(String sqlText, Object[] paramsList, 
ExecuteCallBack callBack) { 


Connection conn = getConnection(); 
PreparedStatement preparedStatement = null; 
ResultSet result = null; 

try { 


preparedStatement = conn.prepareStatement (sqlText); 


if (paramsList != null) { 
for (int i = 0; i < paramsList.length; i++) { 


preparedStatement .setObject (i + 1, paramsList[i]); 


} 
J 


result = preparedStatement .executeQuery (); 
callBack.resultCallBack (result); 


} catch (Exception e) { 
// 待 办 事项 : 自动 生成 catch 块 
e.printSstackTrace (); 
Fk finally 于 
if (preparedStatement != null) { 
Is 
PreparedStatement .close (); 
} catch (SQLException e) { 
// 待 办 事项 : 自动 生成 catch 块 


e.printstackTrace (); 


} 
if (conn != null) { 

try { 
dbCconnectionPool.put (conn) 

} catch (InterruptedException e) { 
// 待 办 事项 : 自动 生成 catch 块 
e.printstackTrace (); 

} 

} 
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1028. } 
1029. 
1030. interface ExecuteCallBack { 
93 void resultCallBack (ResultSet result) throws Exception; 
1032 } 
1 这 
1034. class UserAdClicked implements Serializable { 
1035. private String timestamp; 
036. private String ip; 
03T- private String userID; 
1038. private String adID; 
039. private String province; 
040. private String city; 
1041. private Long clickedCount; 
1042. 
1043. @Override 
044. public String toString() { 
045. return"UserAdClicked [timestamp=" + timestamp + ", ip=" + ip+", 
userID="+userID+",adID=" + adID+", province=" + province + ", 
City=" + city + ",clickedCount=" + clickedCount + "]"; 
046. 
047. 
048. public Long getClickedCount() { 
049. return clickedCount; 
050. 
051. 
O52 public void setClickedCount (Long clickedCount) { 
U53. this.clickedCount = clickedCount; 
054. 
QS55. 
056. public String getTimestamp() { 
DSWs return timestamp; 
058. 
059. 
060. public void setTimestamp (String timestamp) { 
061. this.timestamp = timestamp; 
062. } 
063. 
064. public String getIp() { 
065. return ip; 
066. } 
067. 
068. public void setIP (String ip) { 
069. this.ip = ip; 
070. } 
071: 
O72 public String getUserID() { 
0735 return userID; 
1074. } 
1075. 
1076. public void setUserID(String userID) { 
Ei this.userID = userID; 
1078. } 
I 
1080. public String getAdID() { 
1081. return adID; 
1082. } 
1083. 
1084. public void setAdID(String adID) { 
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1085 . this.adID = adID; 
1086. } 
1087. 
1088. public String getProvince() { 
1089. return province; 
1090 . } 
1091. 
1092. public void setProvince (String province) { 
1093. this.province = province; 
1094. } 
1095. 
1096. public String getCity() { 
1097. return city; 
1098. } 
1099 . 
1100 . public void setCity(String city) { 
De this.city = city; 
1102. } 
03. } 
04. 
05. class AdClicked implements Serializable { 
06. private String timestamp; 
全 Private String adID; 
1108 . Private String province; 
1109 . private String city; 
hs private Long clickedCount; 
让 于 
2 @Override 
3 public String toString() { 
a return "AdClicked [timestamp=" + timestamp + ", adID=" + adID 


+", province=" +province + ", city=" + city+", clickedCount=" 
+ clickedCount + "]"; 








Ts } 
16. 
Ts public String getTimestamp() { 
8 return timestamp; 
9 } 
Us 
Zs public void setTimestamp (String timestamp) { 
2 this .timestamp = timestamp; 
} 
24. 
有 5 public String getAdID() { 
26. return adID; 
2 } 
>4: 居 
2 public void setAdID(String adID) { 
30. this.adID = adID; 
3 } 
1132. 
3 public String getProvince () { 
1134. return province; 
135: } 
L136: 
3 public void setProvince (String province) { 
L138 this.province = province; 
1139. } 
1140 . 
T1141. public String getCity() { 
1142- return city; 
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户 





上 FF FF 


于 
于 
至 
本 





200 . 
201 . 
202 . 


public void setCity(String city) { 
this.city = city; 
} 


public Long getClickedCount() { 
return clickedCount; 


} 


public void setClickedCount (Long clickedCount) 
this.clickedCount = clickedCount; 


class AdProvinceTopN implements Serializable { 
private String timestamp; 
private String adID; 


public String getTimestamp() { 


return timestamp; 


public void setTimestamp (String timestamp) { 
this.timestamp = timestamp; 


public String getAdID() { 
return adID; 


public void setAdID(String adID) { 
this.adID = adID; 





public String getProvince() { 
return province; 


} 


public void setProvince (String province) { 
this.province = province; 


} 


public Long getClickedCount() { 
return clickedCount; 


} 
public void setClickedCount (Long clickedCount) 
this.clickedCount = clickedCount; 
} 
private String province; 
private Long clickedCount; 
class RdTrendStat implements Serializable { 


private String date; 
private String hour; 


001s 
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1203. private String minute; 

1204. 

1205: public String get date() { 

1206. return date; 

1207. } 

1208. 

1209. Q@Override 

240 public String toString() { 

I return "AdTrendStat [ date=" + date + "， hour="+ hour + "， 


minute=" + minute + ", adID=" + adID+",clickedCount=" + 
clickedCount + "]"; 








212< } 

1213. 

1214. public void set date (String date) { 
2 this. date = dates 

1216. } 

121T7s 

2149- public String get hour() { 

9 return hour; 

和 22 

2 

vad public void set hour (String hour) { 
2 this. hour = hour; 

224. 

Ee 

2265 public String get minute() { 

2 return minute; 

228 . 

2 

230 . public void set minute (String minute) { 
3 this. minute = minute; 

之 2 

EE 

2345 public String getAdID() { 

和 2355 return adID; 

236. 

23TE 

238 . public void setadqID (String adID) { 
239 this.adID = adID; 

240. } 

241. 

于 2242 public Long getClickedCount() { 

1243. return clickedCount; 

244. } 

245 . 

246 . public void setClickedCount (Long clickedCount) { 
247. this.clickedCount = clickedCount; 
248 . } 

1249. 

1250: private String adID; 

1251. private Long clickedCount; 

了 252. } 

2253 

32545 class AdTrendCountHistory implements Serializable { 
1255. private Long clickedCountHistory; 
1256 

32575 public Long getClickedCountHistory() { 
1258. return clickedCountHistory; 

12595 } 

206008 


“i 
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1261. public void setClickedCountHistory(Long clickedCountHistory) { 
1262. this.clickedCountHistory = clickedCountHistory; 

12033 } 

1264. } 


Spark Streaming 电 商 广告 点 击 综 合 案例 课程 的 模拟 数据 生成 的 Java 源码 ， 如 例 16-2 
所 示 。 
【 例 16-2】MockAdClickedStats.java 代码 。 


二 package com.dt.spark.SparkApps.SparkStreaming; 


3. import java.util.Date; 

4. import java.util.HashMap; 

5. import java.util.Map; 

6. import java.util.Properties; 
7. import java.util.Random; 


9. import kafka.javaapi.producer.Producer; 
10. import kafka.producer.KeyedMessage; 
11. import kafka.producer.ProducerConfig; 





2 

13. public class MockAdClickedStats { 

14. 

了 5 public static void main (String[] args) { 

3 final Random random = new Random(); 

Ls final String[] provinces = new String[]{"Guangdong", "Zhejiang", 
"Jiangsu", "Fujian"}; 

人 二 final Map<String, String[]> cities = new HashMap<String， 
string[]>(); 

3 cities.put ("Guangdong", new String[]{"Guangzhou","Shenzhen", 
"DongGuan"}); 

人 20 cities.put ("Zhejiang", new String[]{"Hangzhou", "Wenzhou", "Ningbo"}); 

ls cities.put ("Jiangsu", new String[] {"Nanjing","Suzhou", "WuXi"}); 

2 cities.put ("Fujian", new String[]{"Fuzhou", "Ximen", "Sanming"}); 

23< 

24. final String[] ips = new String[]{ 

5 oa 

26. "192:51682112-239": 

ZT sw1925168.112:245", 

人 28 2. L600- 112-240% 

9 ri pl: 

30. 92.168-112-248™, 

3L. O22 L68112 .24 

S29 S26 Ll2 2 

335 S260 12 2 

KE 轴 S192. L168 T123252” 

十 油 slo 160. L12253. 

36= rl 5 

3 }; 

385 /相让 

* Kafka 相关 的 基本 配置 信息 

39E */ 

40. 

A Properties kafkaConf = new Properties(); 

2 kafkaConf .put ("serializer.class", "kafka.serializer.StringEncoder"); 

43. kafkaConf.put ("metadata.broker.list", "master:9092,workerl:9092, 
worker2:9092"); 

44. ProducerConfig producerConfig = new ProducerConfig (kafkaConf); 

A 

46. final Producer<Integer, String> producer = new Producer<Integer, 


“3. 


中 篇 “商业 案例 








String> (producerConfig); 


A 

48. new Thread (new Runnable() { 

49 . 

SO. @Override 

Si public void run() { 

5 while(true){ 

538 // 在 线 处 理 广告 点 击 流 , 广告 点 击 的 基本 数据 格式 : timestamp、ip、 
userID, adID、 province, city 

54. Long timestamp = new Date() .getTime(); 

SD String ip = ips[random.nextInt (12)]; 
// 可 以 采用 网 络 上 免费 提供 的 IP 库 

S56s int userID = random.nextInt (10000); 

1 int adID = random.nextInt (100); 

SB String province = provinces[random.nextInt (4)]; 

59 String city = cities.get (province) [random.nextInt (3) ] 

60. 

6 下 String clickedAd =timestamp + "\t"+ip+"\t"+userID 
"NE radiD NE TF Brovineea + 

62. "At" + city ; 

63。 

64. System.out.println(clickedAd); 

65a 

66. producer .send( new KeyedMessage ("AdClicked",clickedAd)); 

675 

68. trey 

69. Thread.sleep(2000); 

了 } catch (InterruptedException e) { 

了 // TODO Auto-generated catch block 

了 2 e.printstackTrace (); 

73- } 

74. 

75. } 

Ge etary 

Ts 

78- 

了 95 } 

80. 

ale } 

82. 


16.14 电 商 广告 点 击 综 合 案例 课 程 的 Scala 源码 


Spark Streaming 电 商 广告 点 击 综合 案例 课程 的 Scala 源码 ， 如 例 16-3 所 示 。 
【 例 16-3】AdClickedStreamingStats.scala 代码 。 


package com.dt.spark.streamingl14 


import java.sql.Connection 

import java.sql.DriverManager 

import java.sql.PreparedStatement 

import java.sql.ResultSet 

import java.sql.SQLException 

import java.util.concurrent.LinkedBlockingQueue 


cawm 必 ww 
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10. import scala.collection.mutable 

11. import scala.collection.mutable.ListBuffer 

2 

13. import org.apache.spark.SparkConf 

14. import org.apache.spark.sql.Row 

15. import org.apache.spark.sql.hive.HiveContext 
16. import org.apache.spark.sql.hive.HiveQLDialect 
17. import org.apache.spark.sql.types.LongType 

18. import org.apache.spark.sql.types.SstringType 
19. import org.apache.spark.sql.types.StructType 
20. import org.apache.spark.sql.types.StructType 
21. import org.apache.spark.streaming.Seconds 

22. import org.apache.spark.streaming.StreamingContext 
23. import org.apache.spark.streaming.kafka._ 

24. 

25. import kafka.serializer.StringDecoder 

26. import org.apache.spark.SparkContext 

2 

28. object AdClickedStreamingstats { 

29. def main(args: Array[String]): Unit = { 


30. 
< val sparkConf = new SparkConf () .setAppName ("scala-20160903- 
blacklist-ok-114-AdClickedStreamingStats") 
2. .SetMaster ("spark://192.168.189.1:7077") .setJars (List( 
发汗 // .setMaster ("local[5]") .setJars (List( 
34. "/usr/local/spark-1.6.1-bin-hadoop2.6/1ib/spark-streaming— 
kafka 210 L061 4ar 
355 "/usr/local/kafka 2.10-0.8.2.1/libs/kafka-clients-0.8.2.1.jar", 
36. "sr/local/katka 2 10082 .1/1ibs/katka 2 0 00825 1 有 三， 
3 "/usr/local/spark-1.6.1-bin-hadoop2.6/l1ib/spark-streaming 2.10- 
Ola 
38. "/usr/local/kafka 2.10-0.8.2.1/libs/metrics-core-2.2.0.jar", 
39. "isr/local/kafkal 2:10=058°2-1/1ibs/zkclient 0.3.Jar"r 
40. // "/usr/local/spark-1.6.1-bin-hadoop2.6/1ib/spark-assembly-1. 
6.1-hadoop2.6.0.jar", 
Ls "/usr/local/spark-1.6.1-bin-hadoop2.6/1lib/mysql-connector-java- 
S113-bin. jar™, 
2 "/usr/local/IMF testdata/AdClickedstreamingStats.jar")) 
43. 
A4. val ssc = new StreamingContext (sparkConf, Seconds (10)) 
45. ssc.checkpoint ("/usr/local/IMF testdata/IMFcheckpoint114") 
46. val kafkaParameters = Mapl[String, String] ("metadata.broker.list" -> 
"Master :9092,Worker1:9092,Worker2:9092") 
对 7 val topics = Set[String] ("IMFScalaAdClicked") 
48 . val aqdClickedStreaming = KafkaUtils.createDirectSstream[String, 
String, StringDecoder, StringDecoder] (ssc, kafkaParameters, topics) 
49. 
SO val filteredadClickedstreaming=adClickedSstreaming.transform(rdd =>{ 
忠臣 val blackListNames = ListBuffer[String] () 
0 val jdbcWrapper = JDBCWrapper.getInstance() 
5 
Ss def querycallBack (result: ResultSset): Unit = { 
3 
S606s while (result.next()) { 
LT 属 Fesult.getString(1) 
Se> blackListNames += result.getstring(1) 
Dos | 
60 . } 
BE 
2 jdbcWrapper.doQuery ("SELECT * FROM blacklisttable", null, 


“65. 
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querycallBack) 

33 

64. val blackListTuple = ListBuffer[ (String, Boolean)]() 

65: for (name <- blackListNames) { 

66 . val nameBoolean = (name, true) 

G67 blackListTuple += nameBoolean 

68. 上 

69- 

1 val blackListFromDB = blackListTuple 

yi 

12> val jsc = rdd.sparkContext 

了 3 

vy val blackListRDD = jsc.parallelize (blackListFromDB) 

了 5 

oa val rdd2Pair = rdd.map(t => { 

I Val userID = t. 2.split("\E") (2) 

了 由 汪 (userID, t+) 

19s 

80. }) 

8 

82 . val joined = rdd2Pair.leftOuterJoin (blackListRDD) 

BS val result = joined.filter(vl => { 

84. val optional = v1. 2. 2; 

852 if (optional.isDefined && optional.get) { 

86 . false 

a } else { 

88. true 

89. } 

90 . 

ii }) .map( . 2. 1) //test 

S25 

9 result 

94. 

四 5 }) 

96. 

oie filteredadClickedSstreaming.print() 

Des 

99< /** 
* 第 四 步 : 接 下 来 就 像 对 于 RDD 编程 一 样 , 基于 DStream 进行 编程 ! ! ! 原因 是 DStream 
* 是 RDD 产生 的 模板 (或 者 说 类 ) ,在 Spark Streaming 具体 发 生计 算 前 ， 其 实质 是 把 
* 每 个 Batch 的 DStream 的 操作 翻译 成 为 对 RDD 的 操作 ! ! ! 
* 对 初始 的 DStream 进行 Transformation 级 别 的 处 理 ， 如 通过 map、filter 等 高 
* 阶 函 数 等 的 编程 ， 进 行 具体 的 数据 计算 

100. * 广告 点 击 的 基本 数据 格式 : timestamp、ip、userID、adID、province、 city 

了 0 */ 

102= 

103. val pairs = filteredadClickedStreaming.map(t => { 

DA Val splited = t. 2.split("\t") 

1053 val timestamp = splited(0) // yyyy-MM-dd 

106. val ip = splited(1) 

0 Val userID = splited(2) 

108. val adID = splited(3) 

109. Val province = splited(4) 

110. val city = splited(5) 

Eb Val clickedRecord = timestamp + " "+ ip+" "+userID+" "+ 

adrDE ”Frovince tt "4 eit 
bh (clickedRecord, 1L) 
Fh 人 eh 
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ULDs J/ 

1165 * 第 四 步 : 对 初始 的 DStream 进行 Transformation 级 别 的 处 理 ， 如 通过 map、 
* filter 等 高 阶 函数 等 的 编程 ， 进 行 具体 的 数据 计算 

427 * 计算 每 个 Batch Duration 中 每 个 User 的 广告 点 击 量 

118 . sh 

了 95 

ee val adClickedUsers = pairs.reduceByKey( + ) 

5 

工 22>= /站 

3235 * 计算 出 什么 叫 有 效 的 点 击 ? 

2 * (D 复杂 化 的 一 般 都 是 采用 机 器 学 习 训 练 好 模型 直接 在 线 进行 过 滤 ; 

25E * @ 简单 的 ? 可 以 通过 一 个 Batch Duration 中 的 点 击 次 数 来 判断 是 不 是 非法 广告 
* 点 击 ， 但 是 实际 上 ， 非 法 广告 点 击 程序 会 尽 可 能 模拟 真实 的 广告 点 击 行为 ， 所 以 通 
* 过 一 个 Batch 来 判断 是 不 完整 的 ,我 们 需要 对 例如 一 天 (也 可 以 是 每 个 小 时 ) 的 数 
* 据 进行 判断 ! 

126. * (@) 比 在 线 机 器 学 习 退 而 求 其 次 的 做 法 如 下 ; 例如 ， 一 段 时 间 内 ， 同 一 个 IP (MAC 地 
* 址 ) 有 多 个 用 户 账 号 访问 ; 

TPT * 例如 ， 可 以 统一 一 天 内 一 个 用 户 点 击 广告 的 次 数 ， 如 果 一 天 点 击 同样 的 广告 操作 50 
* 次 ， 就 列 入 黑 名 单 ; 
六 

128. * 黑 名 单 有 一 个 重要 的 特征 : 动态 生成 ! ! ! 所 以 ,每 个 Batch Duration 都 要 考 


* 虑 是 否 有 新 的 黑 名 单 加 入 ， 此 时 黑 名 单 需要 存储 起 来 ， 具 体 存 储 在 什么 地 方 呢 ， 存 
* 储 在 DB/Redis 中 即 可 ; 


29. * 例如 ， 邮 件 系统 中 的 “ 黑 名 单 ”， 可 以 采用 Spark Streaming 不 断 地 监控 每 个 用 
* 户 的 操作 , 如 果 用 户 发 送 邮件 的 频率 超过 设 定 的 值 , 可 以 暂时 把 用 户 列 入 “ 黑 名 单 ”， 
* 从 而 阻止 用 户 过 度 频繁 地 发 送 邮件 

305 */ 

3 

325 val filteredClickInBatch = adClickedUsers.filter(vl => { 

33. if (1 < v1._2) { // 更 新 黑 名 单 的 数据 表 

34. false 

5 } else { 

和 true 

Ss } 

三 }) 

339 

40 Mis 





* 此 处 的 print 并 不 会 直接 发 出 Job 的 执行 ， 因 为 现在 的 一 切 都 在 Spark streaming 框 
* 架 的 控制 下 ， 对 于 SparkStreaming 而 言 ， 具 体 是 否 触发 真正 的 Job 运行 是 基 
* 间隔 的 于 设置 的 Duration 时 间 

Tai * 注意 ，Spark Streaming 应 用 程序 要 想 执行 具体 的 Job， 对 DStream 就 必须 有 
* output Stream 操作 ，output Stream 由 很 多 类 型 的 函数 触发 ， 如 
* printsaveAsTextFile、saveAsHadoopFiles 等 ， 最 重要 的 一 个 方法 是 
* foraeachRDD， 因 为 Spark Streaming 处 理 的 结果 一 般 都 会 放 在 Redis、 
* DB、DashBoard 等 上 面 ，foreachRDD 主要 用 来 完成 这 些 功能 ， 而 且 可 以 
* 随意 地 自 定义 具体 数据 到 底 放 在 哪里 ! 


142. */ 
143. 
144. filteredClickInBatch.foreachRDD(rdd => { 


“Ol* 
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145 if (rdd.isEmpty()) {} 

146. rdd.foreachPartition (partition => { 

LAT /相机 

148. * 这 里 我 们 使 用 数据 库 连 接 池 高 效 读 写 数据 库 的 方式 把 数据 写 入 数据 库 MySQL: 

149. * 由 于 传 入 的 参数 是 一 个 Iterator 类 型 的 集合 ， 所 以 为 了 更 加 高 效 地 操作 ,我 
* 们 需要 批量 处 理 

350: * 例如 , 一 次 性 插入 1000 条 Record, 使 用 insertBatch 或 者 updateBatch 
* 类 型 的 操作 ; 

了 5 * 插入 的 用 户 信息 可 以 只 包含 timestamp、ip、userID、adID、province、city 

2 * 这 里 有 一 个 问题 : 可 能 出 现 两 条 记录 的 Key 是 一 样 的 情况 ， 此 时 就 需要 更 新 累 
* 加 操作 

了 53 */ 

L541. val userAdClickedList = ListBuffer[UserAdClicked] () 

3555 while (partition.hasNext) { 

L560。 val record = partition.next() 

357 val splited = record. 1.split(" ") 

585 val userClicked = new UserAdClicked() 

EE userClicked.timestamp = splited(0) 

60 . userClicked.ip = splited(1) 

61. userClicked.userID = splited(2) 

62 . userClicked.adID = splited(3) 

63 . userClicked.province = splited(4) 

64 . userClicked.city = splited(5) 

65. userAdClickedList += userClicked 

66. 1 

67. 

68 . val inserting = ListBuffer[UserAdClicked] () 

69 . val updating = ListBuffer[UserAdClicked] () 

70 . val jdbcWrapper = JDBCWrapper.getInstance () 

1 

2 // 点 击 

3 // 表 的 字段 : timestamp、ip、userID、adID、province、 city、 
//clickedCount 

1 

了 上代 for (clicked <- userAdClickedList) { 

Oe def clickedquerycallBack(result: ResultSet): Unit = { 

了 while (result.next()) { 

TBs if ((result.getRow - 1) != 0) { 

学 9 val count = result.getLong(1) 

80 . clicked.clickedCount = count 

81 < updating += clicked 

82. 

83. } else { 

84. clicked.clickedCount = 0L 

S52 inserting += clicked 

86. 

187. } 

188. } 

189;, } 

390- 

本 99 jdbcWrapper .doQuery("SELECT count (1) FROM adclicked WHERE " 

3 + " timestamp = ? AND userID = ? AND adID = 2?", 

Array (clicked.timestamp, 

日 35 clicked.userID, clicked.adID), clickedquerycallBack) 

Jas 

1495. 

196. // 广 告 点 击 

ON // 表 的 字段 : timestamp、ip、userID、adID、province、 city、 clickedCount 
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val insertParametersList 


= ListBuffer[paramsList] () 


for (inserRecord <- inserting) { 


val paramsListTmp = new 
paramsListTmp.paramsl = 
paramsListTmp.params2 = 
paramsListTmp.params3 = 
paramsListTmp.params4 
paramsListTmp.params5 
paramsListTmp.params6 = 


paramsList () 
inserRecord.timestamp 
inserRecord.ip 
inserRecord.userID 
inserRecord.adID 
inserRecord.province 
inserRecord.city 


paramsListTmp.params10 Long = inserRecord.clickedCount 
paramsListTmp.params Type = "adclickedInsert" 
insertParametersList += paramsListTmp 


} 


jdbcWrapper .doBatch ("INSERT INTO adclicked VALUES 
(2,2,2,?,2,2,?)", insertParametersList) 


// 广 告 点 击 

// 表 的 字段 : timestamp、ip、userID、adID、province、 city、 

//clickedCount 

val updateParametersList = ListBuffer[paramsList] () 

for (updateRecord <- updating) { 
val paramsListTmp = new paramsList () 
ParamsListTmp.paramsl = updateRecord.timestamp 
paramsListTmp.params2 = updateRecord.ip 
paramsListTmp.params3 = updateRecord.userID 
paramsListTmp.params4 = updateRecord.adID 
paramsListTmp.params5 = updateRecord.province 
paramsListTmp.params6 = updateRecord.city 
paramsListTmp.params10 Long = updateRecord.clickedCount 
paramsListTmp.params Type = "adclickedUpdate" 
updateParametersList += paramsListTmp 


} 

jdbcWrapper .doBatch ("UPDATE adclicked set clickedCount = ? WHERE" 
+ " timestamp = ? AND ip = ? AND userID = ? AND adID = ? AND 
province = ? "+ "AND city = ? ", updateParametersList) 


Hy 


by) 


val blackListBasedOnHistory = filteredClickInBatch.filter (vl=>{ 





val splited = v1. 1.split("™ 
val date = splited(0) 
val userID = splited(2) 
val adID = splited(3) 
/** 
* 接 下 来 根据 date、userID、adID 等 条 件 去 查询 用 户 点 击 广告 的 数据 表 ， 获 得 
* 总 的 点 击 次 数 
* 这 时 基于 点 击 次 数 判断 是 否 属于 黑 名 单 点 击 
*/ 
val clickedCountTotalToday = 81 
if (clickedCountTotalToday > 1) { 
true 
} else { 
false 


) 
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3527 }) 
3 Psd 
* 必须 对 黑 名 单 的 整个 RDD 进行 去 重 操作 ! ! ! return vi. 1.split(" ") [2] 
4 二 人 
Eee 调 val blackListuserIDtBasedOnHistory = blackListBasedOnHistory. 
map( Teplie (mm (2) 


256- 

的 val blackListUniqueuserIDtBasedOnHistory = blackListuser 
IDtBasedOonHistory.transform( .distinct()) 

258. // 下 一 步 写 入 黑 名 单数 据 表 中 

595 blackListUniqueuserIDtBasedOnHistory.foreachRDD(rdd => { 

260. /** 

261. * 这 里 我 们 使 用 数据 库 连 接 池 高 效 读 写 数据 库 的 方式 把 数据 写 入 数据 库 MySQL; 

262. * 由 于 传 入 的 参数 是 一 个 Iterator 类 型 的 集合 ， 所 以 为 了 更 加 高 效 地 操作 ,我们 

* 需要 批量 处 理 
263 . * 例如 ， 一 次 性 插入 1000 条 Record， 使 用 insertBatch 或 者 updateBatch 
* 类 型 的 操作 ; 

264. * 插入 的 用 户 信息 可 以 只 包含 useID， 此 时 直接 插入 黑 名 单数 据 表 即 可 

265s */ 

266. rdd.foreachPartition(t => { 

这 val blackList = ListBuffer[paramsList] () 

268 . while (七 .hasNext) { 

269 . //blackList += Array(t.next()) 

2705 val paramsListTmp = new paramsList() 

2 paramsListTmp.paramsl = t.next() 

72 

这 这 paramsListTmp.params Type = "blacklisttableInsert" 

274. blackList += paramsListTmp 

2755 

276 . } 

277 val jdbcWrapper = JDBCWrapper.getInstance () 

TB jdbcWrapper .doBatch ("INSERT INTO blacklisttable VALUES (?) ", 

blackList) 

之 99 }) 

280 . }) 

这 8 Pd 
* 广告 点 击 累计 动态 更 新 ， 每 个 updateStateByKey 都 会 在 Batch Duration 的 
* 时 间 间 隔 的 基础 上 进行 更 高 点 击 次 数 的 更 新 ， 更 新 之 后 ， 我 们 一 般 都 会 持久 化 到 外 部 
* 存储 设备 上 ， 这 里 我 们 存储 到 MySsQL 数据 库 中 

282 . 渍 多 

835 val filteredadClickedStreamingmappair = filteredadClicked 
Streaming.map(t => { 

284. val splited = t. 2.split("\t") 

285. val timestamp = splited(0) // yyyy-MM-dd 

286. val ip = splited(1) 

287. val userID = splited(2) 

288 . val adID = splited(3) 

289. val province = splited(4) 

290. val city = splited(5) 

291. 

2Z92. Val clickedRecord = timestamp + " "+adID+" "+province +" "+city 

3 

294. (clickedRecord, 1L) 

Ss 

365 I) 

297s val updateFunc = (values: Seq[Long], state: Option[Long]) => { 

298: 


* 700* 


第 16 章 电 商 广告 点 击 大 数据 实时 流 处 理 系统 案 例 











299. Some [Long] (values.sum + state.getOrElse (0L)) 

300. 

301s ; 

O23 

303 . val updateStateByKeyDStream = filteredadClickedSstreamingmappair. 

updateStateByKey (updateFunc) 

304. 

305. updateStateByKeyDStream.foreachRDD(rdd => { 

306. rdd.foreachPartition (partition => { 

Sis /4 

308 . * 这 里 我 们 使 用 数据 库 连 接 池 高 效 读 写 数据 库 的 方式 把 数据 写 入 数据 库 MySQL; 

309. * 由 于 传 入 的 参数 是 一 个 Iterator 类 型 的 集合 ， 所 以 为 了 更 加 高 效 地 操作 ， 我 
* 们 需要 批量 处 理 

<j 全 * 例如 , 一 次 性 插入 1000 条 Record, 使 用 insertBatch 或 者 updateBatch 
* 类 型 的 操作 ; 

SI * 插入 的 用 户 信息 可 以 只 包含 timestamp、adID、province、 city 

3 2 * 这 里 面 有 一 个 问题 : 可 能 出 现 两 条 记录 的 Key 是 一 样 的 情况 ， 此 时 就 需要 更 新 
* 累加 操作 

3135 */ 

314. 

3L5e val adClickedList = ListBuffer[AdClicked] () 

316s while (partition.hasNext) { 

3 val record = partition.next() 

318. val splited = record. 1.split(" ") 

3L9. val adClicked = new AdClicked!() 

3205 adClicked.timestamp = splited(0) 

< adClicked.adID = splited(1) 

adClicked.province = splited(2) 

323S adClicked.city = splited(3) 

324. adClicked.clickedCount = record. 2 

2 adClickedList += adClicked 

326= } 

加 谨 

328. val inserting = ListBuffer[AdClicked] () 

329. val updating = ListBuffer [AdClicked] () 

330 . val jdbcWrapper = JDBCWrapper.getInstance () 

93 // 点 击 

3325 // 表 的 字段 : timestamp、ip、userID、adID、province、 city、 
//clickedCount 

2335 for (clicked <- adClickedList) { 

334. 

3358 def adClickedquerycallBack (result: ResultSet): Unit = { 

区 世人 订 while (result.next()) { 

人 if ((result.getRow - 1) != 0) { 

3385. val count = result.getLong(1) 

3 clicked.clickedCount = count 

340. updating += clicked 

SA } else { 

3422 // clicked.clickedCount = 0L 

全 43。 inserting += clicked 

344 . 让 

345 . 上 

346. } 

SA jdbcWrapper.doQuery( 

348. "SELECT count (1) FROM adclickedcount WHERE " 

人 由 交 +"timestamp = ? AND adID = ? AND province = ? AND city =?", 

350. Array (clicked.timestamp, clicked.adID, clicked.province, 

Ss. clicked.city), adClickedquerycallBack) 
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352- 
353- 
354. 


3537 
SS 
S30 
D8 
359. 
360. 
S61 
S625 
3 
364. 
5 
366. 
S67s 


368. 
369s 


3708 
民有 
2 
3135 
374. 
3 
3T68 
STTs 
3788 
TO 
380. 
381< 
382< 
3835 
384. 
I855 
3865 
87s 
388. 
389 . 


390 
391 


S92 
9332 
394 . 
S95. 
396° 
397. 
398. 
399. 
400. 
401. 
402. 
403. 


= 


1 

// 点 击 

// 表 的 字段 : timestamp、ip、userID、adID、province、 city、 

//clickedCount 

val insertParametersList = ListBuffer[paramsList] () 

for (inserRecord <- inserting) { 
val paramsListTmp = new paramsList() 
ParamsListTmp.paramsl = inserRecord.timestamp 
paramsListTmp.params2 = inserRecord.adID 
paramsListTmp.params3 = inserRecord.province 
paramsListTmp.params4 = inserRecord.city 
paramsListTmp.params10 Long = inserRecord.clickedCount 
paramsListTmp.params Type = "adclickedcountInsert" 
insertParametersList += paramsListTmp 


} 

jdbcWrapper .doBatch ("INSERT INTO adclickedcount VALUES 

(2,2,2,?,?2)", insertParametersList) 

// 点 击 

// 表 的 字段 : timestamp、ip、userID、adID、province、city、 

//clickedCount 

val updateParametersList = ListBuffer[paramsList] () 

for (updateRecord <- updating) { 
val paramsListTmp = new paramsList() 
paramsListTmp.paramsl = updateRecord.timestamp 
paramsListTmp.params2 = updateRecord.adID 
paramsListTmp.params3 = updateRecord.province 
paramsListTmp.params4 = updateRecord.city 
paramsListTmp.params10 Long = updateRecord.clickedCount 
paramsListTmp.params_ Type = "adclickedUpdate" 
updateParametersList += paramsListTmp 


} 
jdbcWrapper .doBatch ( 
"UPDATE adclickedcount set clickedCount = ? WHERE " 
+ " timestamp = ?AND adID= ? AND province=? AND city = ? ", 
updateParametersList) 


}) 
}) 
/** 
* 对 广告 点 击 进行 TopN 的 计算 ， 计 算出 每 天 每 个 省 份 的 Top5 排名 的 广告 因为 我 
* 们 直接 对 RDD 进行 操作 ， 所 以 使 用 了 transform 算 子 
Sa 
val updateStateByKeyDStreamrdd = updateStateByKeyDStream. 
transform(rdd => { 


val rowRDD = rdd.map(t => { 


val splited 三 二 Lsplit(® *) 

val timestamp = "2016-09-03" //yyyy-MM-dd 

val adID = splited(1) 

Val province = splited(2) 

val clickedRecord = timestamp + ”+ adD +t ”+ province 
(clickedRecord, t. 2) 


}) .reduceByKey( + ).map(vl => { 
vulnsplited = vi Lsplit 
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404. val timestamp = "2016-09-03" // yyyy-MM-dd 

405. val adID = splited(1) 

406. val province = splited(2) 

407. Row (timestamp, adID, province, vl. 2) 

408. 

409. }) 

410. val structType = new StructType () 

411. -add ("timstamp", StringType) 

驳 下 之 二 -add("adID"，StringType) 

413 . -add("province"，StringType) 

414. -add ("clickedCount", LongType) 

415. 

416. val hiveContext = new HiveContext (rdd.sparkContext) 

AL7: val df = hiveContext.createDataFrame (rowRDD, structType) 

418. df.registerTempTable ("topNTableSource") 

419. val sqlText= "SELECT timstamp,adID,province,clickedCount FROM "+ 

420. " (SELECT timstamp,adID, province,clickedCount, row number() "+ 

2 "OVER ( PARTITION BY province ORDER BY clickedCount DESC) rank"+ 

422. " FROM topNTableSource ) subquery " + " WHERE rank <= 5 " 

2 val result = hiveContext.sql (sqlText) 

424. result.rdd 

425. 

426. }) 

427. 

428. updateStateByKeyDStreamrdd.foreachRDD(rdd => { 

429. rdd.foreachPartition(t => { 

430. val adProvinceTopN = ListBuffer[AdProvinceTopN] () 

3 while (t.hasNext) { 

六 325 Val row = 七 .next() 

4335 val item = new AdProvinceTopN(); 

434. item.timestamp = row.getSstring (0) 

4355 item.adID = Fow.getString(1) 

436 . item.province = row.getstring(2) 

a item.clickedCount = row.getLong (3) 

438 . adProvinceTopN += item 

439. } 

440 . val jdbcWrapper = JDBCWrapper.getInstance () 

441 . val set = new mutable.HashSet[String] () 

442 . for (itemTopn <- adProvinceTopN) { 

443 . set += itemTopn.timestamp + "_" + itemTopn.province 

444. } 

445. // 点 击 

446. // 表 的 字 段 : timestamp、ip、userID、adID、province、 city、 clickedCount 

447. val deleteParametersList = ListBuffer[paramsList] () 

448. for (deleteRecord <- set) { 

449. val splited = deleteRecord.split(" ") 

450. val paramsListTmp = new paramsList() 

451. paramsListTmp.paramsl = splited(0) 

452. paramsListTmp.params2 = splited(1) 

453. paramsListTmp.params Type = "adprovincetopnDelete" 

454. deleteParametersList += paramsListTmp 

455. 

456. } 

全 jdbcWrapper .doBatch ("DELETE FROM adprovincetopn WHERE 
timestamp = ? AND province = 2", 

A58. deleteParametersList); 

459. val insertParametersList = ListBuffer[paramsList] () 

460. for (updateRecord <- adProvinceTopN) { 

461. val paramsListTmp = new paramsList() 
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462. 
463. 
464. 
465. 
466. 
467. 
468. 
469. 
470. 


471. 
472. 
473. 
474. 


475. 
476. 


477. 
478 . 
479 . 


480 . 
481. 
482. 
483. 


484. 
485. 
486. 
487. 
488. 
489. 
490. 
aA9l: 
492 . 
493 . 


494. 


Ss 


496. 
AD7. 
498. 
499. 
500. 
S01 
SO 
S03. 
504. 
5055 
506. 
SONs 
508 . 
S09 
Ss 


.704 


paramsListTmp .paramsl = updateRecord.timestamp 
paramsListTmp .params2 = updateRecord.adID 
paramsListTmp.params3 = updateRecord.province 
paramsListTmp.params10 Long = updateRecord.clickedCount 
paramsListTmp.params Type = "adprovincetopnInsert" 
insertParametersList += paramsListTmp 


} 
jdbcWrapper .doBatch ("INSERT INTO adprovincetopn VALUES 
(2,2,?2,2) ", insertParametersList) 


站 
}) 
/** 
* 计算 过 去 半 个 小 时 内 广告 点 击 的 趋势 ， 用 户 广告 点 击 信息 可 以 只 包含 timestamp、 


ip、uUserID、aqdID、Pprovince、city 


区 
val filteredadClickedStreamingpair = filteredadClickedStreaming. 
map (七 => { 


val splited = t. 2.split("\t") 

val adID = splited(3) 

val time = splited(0) //Todo: 后 续 需 要 重 构 代 码 ， 实 现时 间 玲 和 分 钟 的 
// 转 换 提 取 ， 此 处 需要 提取 出 该 广告 的 点 击 分 钟 单位 

(tine + adID 1D0) 


}) 
filteredadClickedSstreamingpair.reduceByKeyAndWindow( + ,_-_, 
Seconds (1800), Seconds (60)) 
.foreachRDD (rdd => { 
rdd.foreachPartition(partition => { 
val adTrend = ListBuffer[AdTrendstat] () 
while (partition.hasNext) { 
val record = partition.next () 
val splited = record. 1.split(" ") 
val time = splited(0) 
val adID = splited(1) 
val clickedCount = record. 2 
/** 
* 在 插入 数据 到 数据 库 的 时 候 具 体 需要 哪些 字段 ? time、adID、 
* ClickedCount; 
* 而 我 们 通过 J2EE 技术 进行 趋势 绘图 的 时 候 表 定 是 需要 年 、 月 、 日 、 时 、 
* 分 这 此 维度 的 ， 所 以 我 们 在 这 里 需要 年 、 月 、 日 、 小 时 、 分 钟 这 些 时 间 维 度 
«7 
val adTrendStat = new AdTrendstat () 
adTrendStat .adID = adID 
adTrendStat.clickedCount = clickedCount 
adTrendstat. date = time //Todo: 获 取 年 、 月 、 日 
adTrendstat. hour = time //Todo: 获 取 小 时 
adTrendstat. minute = time  ”//Todo: 获 取 分 钟 
adTrend += adTrendSstat 
} 
val inserting = ListBuffer[AdTrendstat] () 
val updating = ListBuffer[AdTrendstat] () 
val jdbcWrapper = JDBCWrapper.getInstance() 
// 广 告 点 击 
// 表 的 字段 : date、hour、minute、adID、clickedCount 
for (clicked <- adTrend) { 
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Spl val adTrendCountHistory = new AdTrendCountHistory() 
SLI2. 

与 下 3 def adTrendquerycallBack (result: ResultSet): Unit = { 
呈 证 夫 寺 while (result.next()) { 

SS- if ((result.getRow - 1) != 0) { 

局 val count = result.getLong(1) 

SET adTrendCountHistory.clickedCountHistory = count 
518. updating += clicked 

SE } else { 

S20 inserting += clicked 

521. } 

S22 } 

S23s 上 

524. 

与 人 号 jdbcWrapper.doQuery ("SELECT count (1) FROM adclickedtrend 


WHERE "+ " date = ? AND hour = ? AND minute = ? AND adID = 2?", 
Array (clicked. date, clicked. hour,clicked. minute, clicked.adID), 





adTrendquerycallBack) 

526. 

2 } 

S28 val insertParametersList = ListBuffer[paramsList] () 

5295 

S30 for (inserRecord <- inserting) { 

S38 

与 入 人 val paramsListTmp = new paramsList() 

SE ParamsListTmp.paramsl = inserRecord. date 

534. paramsListTmp.params2 = inserRecord. hour 

SS ParamsListTmp .params3 inserRecord. minute 

S55 paramsListTmp.params4 = inserRecord.adID 

EX 必 paramsListTmp.params10 Long = inserRecord.clickedCount 

538 . paramsListTmp.params Type = "adclickedtrendInsert" 

S395 insertParametersList += paramsListTmp 

540. 

541. } 

5 二 2 jdbcWrapper .doBatch ("INSERT INTO adclickedtrend 
VALUES (?, ?,?,?,?)", insertParametersList) 

543. 

544. val updateParametersList = ListBuffer[paramsList] () 

上 训 for (updateRecord <- updating) { 

546 . 

547 . val paramsListTmp = new ParamsList() 

548 . paramsListTmp.paramsl = updateRecord. date 

S549. paramsListTmp.params2 = updateRecord. hour 

S50 paramsListTmp.params3 = updateRecord. minute 

Ly paramsListTmp.params4 = updateRecord.adID 

本 paramsListTmp.params10 Long = updateRecord.clickedCount 

S53s paramsListTmp.params Type = "adclickedtrendUpdate" 

55a. updateParametersList += paramsListTmp 

S55 } 

S56 jdbcWrapper .doBatch ("UPDATE adclickedtrend set clickedCount 
= ? WHERE " +" date = ? AND hour = ? AND minute = ? AND adID 
= 2",updateParametersList) 

DT 

S58 }) 

Sn 

560. }) 

SOL 


2 
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562. 
563. 
564. 
S65 
566. 
Sm 
568. 
569 
STO. 
SIL 
5722 
SS 
574. 
Ses 
ST6= 
ST 
与 
Si 
580. 
581. 
582. 
583. 
584. 
585. 
586. 
587. 
588. 
589E 
5985 
Son 
S92 
S995 
594. 
S95 


S905 
S97 
S98 
S995 
600. 
601. 
602. 
603. 
604. 
605. 
606. 
607. 
608. 
609. 
610. 
G11 
E22. 
613. 


614. 
S15 
616. 
区 岳 
618. 


。706 。 


ssc.start() 
ssc.awaitTermination() 


} 
object JDBCWrapper { 
private var jdbcInstance: JDBCWrapper = 


def getInstance(): JDBCWrapper = { 
synchronized { 


if (jdbcInstance == null) { 


jdbcInstance = new JDBCWrapper () 
} 
} 
jdbcInstance 


有 
} 
class JDBCWrapper { 


val dbConnectionPool = new LinkedBlockingQueue [Connection] () 
try { 

Class .forName ("com.mysql.jdbc.Driver") 
Tcatch. 4 

case e: ClassNotFoundException => e.printStackTrace() 


} 


EGG <= Eto DOV 
try { 
val conn = DriverManager.getConnection("jdbc:mysql://Master: 
3306/sparkstreaming", "root","root"); 
dbConnectionPool .put (conn); 
} catch { 
case e: Exception => e.printStackTrace () 
| 
h 


def getConnection(): Connection = synchronized { 
while (0 == dbConnectionPool.size()) { 
try { 
Thread.sleep (20); 
} catch { 
case e: InterruptedException => e.printstackTrace() 
} 
dbConnectionPool .poll (); 


def doBatch (sqlText: String, paramsList: ListBuffer[paramsList]): 
Array[Int] = { 


val conn: Connection = getConnection(); 

Var preparedStatement: PreparedStatement = null; 
val result: Array[Int] = null; 

try { 
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619. conn.setAutoCommit (false); 

6205 PreparedStatement = conn.prepareStatement (sqlText) 

B52- for (parameters <- paramsList) { 

622. 

623- parameters.params Type match { 

624. 

B25 case "adclickedInsert" => { 

626. println("adclickedInsert") 

627- 

628. preparedStatement .setObject (1, parameters.params1) 
629» preparedStatement .setObject (2, parameters .params2) 
630. preparedStatement .setObject (3, parameters .params3) 
631. preparedStatement .setObject (4, parameters.params4) 
3 preparedStatement .setObject (5, parameters.params5) 
633< preparedStatement .setobject (6，Pparameters.params6) 
634. preparedSstatement .setObject (7, parameters.params10 Long) 
635- } 

636. 

SI case "blacklisttableInsert" => { 

638 . println("blacklisttableInsert") 

6395 preparedStatement .setObject (1, parameters.params1) 
640. } 

641. case "adclickedcountInsert" => { 

642 . println("adclickedcountInsert") 

643. preparedStatement .setObject (1, parameters.params1) 
644. preparedStatement .setObject (2, parameters.params2) 
645. preparedStatement .setObject (3, parameters .params3) 
646. preparedStatement .setObject (4, parameters.params4) 
647. PreparedStatement .setObject (5, parameters.params10 Long) 
648. } 

649. case "adprovincetopnInsert" => { 

650. println ("adprovincetopnInsert") 

G5d. preparedStatement .setObject (1, parameters.params1) 
652- preparedStatement .setObject (2, parameters.params2) 
653. preparedStatement .setObject (3, parameters .params3) 
654. preparedStatement .setObject (4, parameters.params10 Long) 
SS } 

656. case "adclickedtrendInsert" => { 

657- println("adclickedtrendInsert") 

658. preparedStatement .setObject (1, parameters.params]1) 
659. preparedStatement .setObject (2, parameters.params2) 
660 . preparedStatement .setobject (3，Parameters .params3) 
661 . preparedStatement .setobject (4, parameters.params4) 
662 . preparedStatement .setObject (5, parameters.params10 Long) 
663 . } 

664. case "adclickedUpdate" => { 

665. println("adclickedUpdate") 

666. preparedSstatement .setObject (1, parameters.params10 Long) 
667. preparedStatement .setObject (2, parameters.params1) 
668. preparedStatement .setObject (3, parameters .params2) 
669. preparedStatement .setObject (4, parameters .params3) 
670. preparedStatement .setObject (5, parameters.params4) 
G7 preparedStatement .setObject (6, parameters.params5) 
G72s preparedStatement .setObject (7, parameters.params6) 
6735 

674. } 

675% 

676. case "blacklisttableUpdate" => { 

6772 println("blacklisttableUpdate") 

678. preparedStatement .setObject (1, parameters.params1) 
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case "adclickedcountUpdate" => { 
println("adclickedcountUpdate") 
preparedStatement .setObject (1, parameters.params10 Long) 
preparedStatement .setObject (2, parameters.params]1) 
preparedStatement .setObject (3, parameters.params2) 
preparedStatement .setObject (4, parameters.params3) 
preparedStatement .setObject (5, parameters.params4) 


case "adprovincetopnUpdate" => { 
println ("adprovincetopnUpdate") 
preparedStatement .setObject (1, parameters.params10 Long) 
preparedStatement .setObject (2, parameters.params1) 
preparedStatement .setObject (3, parameters.params2) 
preparedStatement .setObject (4, parameters .params3) 


! 


case "adprovincetopnDelete" => { 
println ("adprovincetopnDelete") 


preparedStatement .setObject (1, parameters.params1) 
preparedStatement .setObject (2, parameters.params2) 


) 


case "adclickedtrendUpdate" => { 
println("adclickedtrendUpdate") 
preparedStatement .setObject (1, parameters.params10 Long) 
preparedStatement .setObject (2, parameters.params1) 
preparedStatement .setObject (3, parameters.params2) 
preparedStatement .setObject (4, parameters .params3) 
preparedStatement .setObject (5, parameters.params4) 


} 


preparedStatement .addBatch () 7 
} 


Val result = preparedStatement .executeBatch (); 


conn.commit (); 
catch { 
// 待 办 事项 : 自动 生成 catch 块 


case e: Exception => e.printstackTrace() 


finally { 
if (PreparedStatement != null) { 
try { 
PreparedStatement .close(); 
Ca th 


// 待 办 事项 : 自动 生成 catch 块 
case e: SQLException => e.printstackTrace() 
} 
} 


if (conn 1!= null) { 
try { 
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dbConnectionPool.put (conn); 
pcateh t 
// 待 办 事项 : 自动 生成 catch 块 
case e: InterruptedException => e.printstackTrace() 
} 
} 
» 


result; 


} 


def doQuery (sqlText: String, paramsList: Array[_], callBack: 


ResultSet => Unit) { 


val conn: Connection = getConnection(); 
Var preparedStatement: PreparedStatement = null; 
Var result: ResultSet = null; 


try { 
PreparedStatement = conn.prepareStatement (sqlText) 
if (paramsList != null) { 


for (i <- 0 to paramsList.length - 1) { 
preparedStatement .setObject (i + 1, paramsList (i)) 


} 
| 
result = preparedStatement .executeQuery () 
callBack (result) 


} catch { 
// 待 办 事项 : 自动 生成 catch 块 


case e: Exception => e.printstackTrace() 


} finally { 
if (preparedStatement != null) { 
try { 
preparedStatement .close(); 
cecacch 


// 待 办 事项 : 自动 生成 catch 块 


case e: SQLException => e.printstackTrace() 


;i 
} 


if (conn != null) { 
try { 
dbConnectionPool.put (conn) 
ycatch { 
// 待 办 事项 : 自动 生成 catch 块 


case e: InterruptedException => e.printstackTrace() 


def resultCallBack (result: ResultSet, blackListNames: 
List[String]): Unit = { 


= 
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class paramsList extends Serializable { 
Var params1: String = 
Var params2: String = 
var params3: String = 
var params4: String = 
Var params5: String = 
var params6: String = 
Var params7: String = 
Var params10 Long: Long 
var params Type: String 
var Tengths InE = 


1 


class UserAdClicked extends Serializable { 
var timestamp: String = _ 
var ip: String = 
Var userID: String = 
var adID: String = 
Var province: String = 
var city: String = 
var clickedCount: Long = 


override def toString: String = "UserAdClicked [timestamp=" + 
timestamp + ", ip=" + ip + ", userID=" + userID + ", adID=" + 
adID + " proyvince=" + province + "; city" + city 十 “7 
clickedCount=" +clickedCount + "]"; 


} 


class AdClicked extends Serializable { 
var timestamp: String = 
var adID: String = _ 
var province: String = _ 
var city: String = _ 
var clickedCount: Long = _ 
override def toString: String = "AdClicked [timestamp=" + 
timestamp + ", adID=" + adID + ", province=" + province + ", city=" 
+ city + ", clickedCount=" +clickedCount + "]" 


class AdProvinceTopN extends Serializable { 
var timestamp: String = 
var adID: String = 
Var province: String = 
Var clickedCount: Long = _ 


class AdTrendStat extends Serializable { 
var date: String = 
var hour: String = 
var minute: String = 
var adIiD: String = 
var clickedCount: Long = _ 
override def toString: String = "RdTrendStat [ date=" + 
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date+", hour=" + hour + ", minute=" + minute + ", adID=" + 
adID + ", clickedCount=" + clickedCount + "]" 

8505 } 

起 本 于 去 

2 class AdTrendCountHistory extends Serializable { 

B53 Var clickedCountHistory: Long = 

854. } 

855 . 了 

856. 


16.15 本 章 总 结 
本 章 电 商 广告 点 击 综合 案例 应 用 Spark Streaming+Kafka+Spark SQL+TopN+Mysql 大 数 
据 处 理 技 术 ， 是 一 个 综合 、 全 面 、 实 战 型 的 Spark 实时 在 线 计算 的 案例 。 读 者 如 能 搭建 一 套 


Spark 分 布 式 集群 环境 ， 自 己 实践 一 遍 案例 代码 并 解决 实际 运行 中 遇 到 的 各 种 问题 ， 可 极 大 
地 提升 读者 通过 Spark 解决 问题 的 综合 应 用 能 


人 


第 17 章 Spark 在 通信 运营 商 生 产 环境 中 的 
应 用 案例 


17.1 Spark 在 通信 运营 商 融 合 支付 系统 日 志 统计 分 析 中 的 综 
合 应 用 案例 


x 章 阐述 Spark 在 通信 运营 商 融合 支付 系统 日 志 统 计 分 析 的 综合 应 用 案例 ， 通 过 Spark 
核心 计算 框架 及 Splunk 大 数据 Web 展示 系统 在 融合 支付 平台 的 综合 应 用 ， 统 计 分 析 通 信 运 
营 商 生产 环境 中 融合 支付 系统 日 志 中 调用 外 部 系统 接口 的 返回 码 、 系 统 超时 等 日 志 数据 。 


17.1.1 融合 支付 系统 日 志 统计 分 析 综 合 案例 需求 分 析 


本 章 案例 中 的 通信 运营 商 集团 公司 是 中 国 特大 型 国有 通信 企业 , 连续 多 年 入 选 “ 世 界 500 
强 企 业 ”， 主 要 经 营 固定 电话 、 移 动 通信 、 卫 星 通 信 、 互 联网 接 入 及 应 用 等 综合 信息 服务 。 
中 国 特大 型 城市 本 地 公司 拥有 集团 公司 内 最 大 的 城市 电信 网 络 , 为 超过 2200 万 用 户 提供 包括 
移动 通信 、 宽 带 互联 网 接 入 、 信 息 化 应 用 及 固定 电话 等 产品 在 内 的 综合 信息 解决 方案 ， 始 终 
保持 中 国 特大 型 城市 通信 市 场 的 领先 地 位 。 

首先 看 一 下 本 案例 涉及 的 业务 场景 : 用 户 登录 支付 宝 客户 端 查询 、 缴 付 通信 运营 商 电信 
账单 ， 流 程 示 意图 如 图 17-1 所 示 。 





互联 网 公司 通信 运营 疝 


融合 支付 系统 计 费 账 务 系统 


Spark 晶 志 分 析 











图 17-1 支付 宝 通信 运营 商 账单 支付 


和 户 登 录 支 付 宝 客户 端 缴费 账单 业务 流程 如 下 。 

(1) 用 户 登 录 支付 宝 客户 端 进行 通信 运营 商 账单 查询 缴费 。 支 付 宝 系统 侧 将 用 户 分 账 序 
号 发 送 到 通信 运营 商 侧 融 合 支付 系统 进行 账单 查询 。 

(2) 融合 支付 平台 收 到 查询 请 求 ， 对 账单 相关 的 参数 进行 校 验 。 

(3) 如 校 验 通过 ， 融 合 支付 平台 调用 通信 运营 商 内 部 计 费 账 务 系统 接口 查询 账单 ， 若 查 
询 失败 ， 则 返回 失败 结果 。 

(4) 通信 运营 商 内 部 计 费 账 务 系统 查询 账单 返回 成 功 ， 融 合 支付 侧 把 相应 的 账单 查询 结 
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果 返 回 给 支付 宝 系统 侧 。 
(5) 支付 宝 系统 侧 收 到 查询 结果 ， 根 据 账单 信息 发 起 销 账 请 求 。 
(6) 融合 支付 平台 收 到 销 账 请 求 ， 对 账单 相关 的 参数 进行 校 验 。 
(7) 如 校 验 通过 ， 融 合 支付 平台 调用 通信 运营 商 内 部 计 费 账 务 系统 账单 校 验 接口 对 分 账 
序号 进行 确认 ， 若 校 验 失败 ， 则 返回 失败 结果 。 
(8) 内 部 计 费 账 务 系统 计 费 校 验 返 回 成 功 ， 融 合 支付 平台 将 订单 〈 会 先 作 订单 的 交易 状 
态 校 验 ， 因 为 同一 订单 在 支付 失败 后 ， 允 许 再 次 支付 ) 信息 进行 入 库 。 
(9) 融合 支付 平台 调用 通信 运营 商 内 部 计 费 账 务 系统 销 账单 。 销 账 完毕 ， 融 合 支付 侧 将 
销 账 结果 返回 给 支付 宝 系统 侧 。 
需求 来 源 : 
Spark 在 通信 运营 商 融 合 支付 系统 日 志 统 计 分 析 的 业务 需求 来 自 通信 运营 商业 务 部 门 账 
务 中 心 : 用 户 登 录 支 付 宝 客户 端 查询 、 缴 付 通信 运营 商 电信 账单 ， 用 户 有 时 会 遇 到 账单 缴费 
失败 、 系 统 超时 的 情况 , 用 户 须 知晓 账单 缴费 失败 的 原因 。 整个 业务 流程 经 过 支付 宝 公司 ( 支 
付 宝 系统 ) 、 通 信 运 营 商 (融合 支付 系统 、 计 费 账 务 系统 ) ， 为 了 提升 用 户 账单 缴 付 体验 ， 
通信 运营 商业 务 部 门 召 集 支 付 宝 和 融合 支付 的 技术 部 门 一 起 共同 查证 。 
对 于 支付 宝 公司 : 支付 宝 客户 端 直接 面 对 客 户 入 口 ， 须 了 解 账单 支付 请 求 到 融合 支付 系 
统 的 失败 原因 。 
口 系统 超时 : 支付 宝 通过 公 网 连接 融合 支付 平台 ， 从 支付 宝 系统 公 网 连接 融合 支付 平 
台 超 时 的 现象 较 少 ， 融 合 支付 平台 也 提供 相应 的 查询 接口 给 支付 宝 系统 ， 支 付 宝 系 
统 可 以 对 没收 到 返回 消息 的 账单 缴费 请 求 调用 融合 支付 的 查询 接口 ， 如 查询 不 到 记 
录 ， 则 再 次 重 发 一 次 账单 销 账 请 求 。 
口 账单 销 账 失败 的 原因 。 从 支付 宝 公司 的 角度 ， 支 付 宝 侧 收 到 融合 支付 侧 返回 的 系统 
返回 码 , 对 于 某 一 时 刻 出 现 的 返回 码 峰值 ,需要 清楚 返回 码 的 原因 。 如 图 17-2 所 示 ， 
全 球 领先 的 独立 第 三 方 支付 平台 支付 宝 公司 ， 从 支付 宝 的 监控 系统 中 发 现 某 一 个 时 
刻 ， 支 付 宝 侧 到 融合 支付 平台 的 返回 失败 码 突 然 上 升 ， 支 付 宝 公司 不 知晓 具体 的 情 
况 ， 及 时 报告 通信 运营 商 融 合 支 付 平台 配合 协查 。 
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图 17-2 支付宝 提供 的 分 析 图 


二 :全 
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对 于 通信 运营 商 ， 为 配合 支付 宝 公 司 的 账单 销 账 失 败 码 查证 ， 首 先 在 通信 运营 商 内 部 进 
行 排查 : 电信 账单 缴费 经 过 了 融合 支付 系统 、 计 费 账 务 系统 ， 我 们 需 分 析 通 信和 运营 商 内 部 系 
统销 账 失败 的 情况 , 融合 支付 系统 发 送 账 单 销 账 请 求 到 计 费 账 务 系统 , 如 计 费 系统 销 账 失败 ， 
计 费 账 务 系统 将 销 账 失败 的 返回 码 返回 给 融合 支付 平台 。 融 合 支付 系统 收 到 计 费 系统 的 返回 
消息 记录 ， 将 其 失败 返回 码 记录 在 日 志 中 ， 在 融合 支付 Oracle 数据 库 系 统 中 是 没有 入 库 的 ， 
因此 ， 在 数据 库 中 查询 不 到 相关 的 记录 信息 ; 失败 返回 码 散 布 在 各 个 日 志文 件 中 ， 每 个 日 志 
文件 大 小 在 2GB 左右 ， 如 人 工 查证 日 志 ， 需 人 工 使 用 第 三 方 的 文本 切割 工具 切 分 日 志 ， 一 条 
条 地 去 看 ， 人 工 难 以 统计 出 整个 日 志 的 失败 返回 码 情况 。 因 此 ， 本 案例 就 尝试 使 用 Spark 技 
术 来 分 析 融 合 支付 系统 发 起 请 求 到 内 部 计 费 账 务 系统 的 日 志 记录 ， 内 部 排查 计 费 账 务 系统 返 
回 的 错误 码 情况 。 

关于 日 志 分 析 的 技术 选 型 ， 可 能 也 有 其 他 的 一 些 技术 能 实现 相同 的 功能 ， 我 们 考虑 使 用 
Spark 技术 的 原因 在 于 : 

口 Spark 技术 很 适合 于 日 志文 件 的 处 理 。 融 合 支 付 日 志文 件 打 印 的 日 志 记 录 非 格式 化 ， 

日 志 中 包括 各 种 支付 交易 的 记录 信息 ，Spark 读 入 一 行 行 的 数据 Iterator 进行 处 理 ， 
有 利于 根据 正则 规则 进行 日 志 数 据 清 洗 提 取 。 
口 Spark 技术 具备 日 志 离线 、 在 线 实 时 处 理 扩 展 性 。 目 前 ，Spark 技术 应 用 于 融合 支付 
志 系 统 的 离线 数据 分 析 。 在 以 后 的 应 用 中 ， 相 同 的 业务 逻辑 代码 稍 作 修 改 就 可 以 
推广 到 融合 支付 日 志 实 时 在 线 处 理 系统 中 。 

口 在 电影 点 评 、 人 员 管 理 、 电 商 分 析 、NBA 球员 分 析 、 电 商 广告 案例 的 综合 应 用 中 积 

累 的 Spark 经 验 知识 ， 触 类 旁 通 就 能 将 Spark 技术 应 用 到 通信 运营 商 的 生产 环境 中 ， 
充分 发 挥 Spark 的 作用 ， 根 据 融 合 支付 日 志 分 析 的 业务 需求 实现 相应 的 功能 。 


17.1.2 ”融合 支付 系统 日 志 统 计 分 析 数 据说 明 





Spark 在 通信 运营 商 生 产 环境 中 的 应 用 案例 统计 分 析 以 下 日 志 数 据 : 
口 配合 支付 宝 公司 侧 电 信和 销 账 失败 返回 码 查 证 的 原因 分 析 : 在 日 志 中 提取 销 账 失败 的 
记录 ， 如 销 账 失败 的 原因 为 账户 不 存在 或 当前 不 是 有 效 状态 、 设 备 号 对 应 账号 为 
口 通信 运营 商 内 部 系统 从 融合 支付 系统 到 账 务 计 费 系统 、 认 证 系统 的 超时 分 析 。 用 户 
在 支付 宝 客户 端 进行 账单 支付 ， 从 支付 宝 系统 公 网 连接 融合 支付 平台 超时 的 现象 较 
少 。 但 在 通信 运营 商 内 部 系统 的 交互 中 ， 发 现 融合 支付 平台 到 账 务 计 费 系统 、 认 证 
系统 有 时 存在 系统 超时 现象 ， 因 此 须 统计 融合 支付 到 各 系统 认证 、 账 单 查询 缴 付 的 
时 间 。 
融合 支付 上 述 日 志 统计 分 析 业 务 需 求 对 应 的 日 志 记 录 如 下 。 日 志 均 从 融合 支付 生产 环境 
中 的 日 志 中 摘录 〈 日 志 样 本 供 读者 了 解 本 章节 日 志 处 理 的 格式 ， 原 始 记录 数据 已 修改 ) 。 
(1) 销 账 失败 返回 码 统计 分 析 。 例 如 ， 从 融合 支付 以 下 的 日 志 中 将 “账户 不 存在 或 当前 
不 是 有 效 状 态 ” 从 日 志 中 提取 出 来 。 
1. 2016-12-20 23:07:27,625 [DEBUG] [SocketUtils.java] : 94 -- Service 


socketReceiveMsgServe() received msg is 000416<?xml version="1.0" 
encoding="UTF-8"?> 

















| 





.714 
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2. <MsgRequest><Head><RequestSeq>28*db3ba80cb45697</RequestSeq> 
<Command>Out*Invoice</Command><RequestModule>ALIPAY</RequestModule></ 
Head><Body><MQAccountNo>*</MQOAccountNo><MQStatus>0</MQStatus><MQFromD 
ate>2016-05</MQOFromDate><MOToDate>2016-12</MQToDate></Body></MsgReque 
E> 

3. 2016-12-20 23:07:27,656 [DEBUG] [MQQueryInvoiceBusiness.java] : 298 —- 
流 水 号 :28*3ba80cb45697,queryInvoice response:<soap:Envelope xmlns: 
soap="http://*/soap/envelope/"><soap:Body><ns2:queryInvoiceResponse 
xmlns:ns2="http://services.*.cn/"><response><head><errCode>00000001</ 
errCode><errDesc>com.ctsh.payment .common.exception.ApplicationExcepti 
on: 账户 不 存在 或 当前 不 是 有 效 状 态 

a 

5. cn.*</errDesc></head></response></ns2:queryInvoiceResponse> 
</soap:Body></soap:Envelope> 


2016-12-20 23:07:27,672 [ERROR] [MQOQueryInvoiceBusiness.java] : 406 -- 

流水 号 :281*697 MQQueryInvoiceBusiness queryInvoiceNew() webservice 账单 余 

额 列表 查询 失败 ! errCode:00000001 

8. 2016-12-20 23:07:27,672 [DEBUG] [NewZWService.java] : 605 一 一 六 六 水 六 六 六 冰冰 六 冰冰 
最 终 响应 消息 : 000528<?xml version="1.0" encoding="UTF-8"?> 

9. <MsgResponse><Head><RespCode>0001</RespCode><ErrCode>0040</ErrCode> 

<ReplyCommand>Out*Invoice</ReplyCommand><ReplySeq>2811*a80cb45697</Re 

plySeq><ReplyModule></ReplyModule></Head><Body><MQCount/><MQPaymentMo 

de/><MOReseller/><MQResult/><MQInvoiceList/></Body></MsgResponse> 


10. 2016-12-20 23:07:27,672 [DEBUG] [SocketUtils.java] : 29 -- SocketUtils 
socketSentMsg () return message >>>> 000138<?xml version="1.0" 
encoding="UTF-8"?>...... 

dls 


融合 支付 销 账 失败 返回 码 统计 分 析 ( 账 户 不 存在 或 当前 不 是 有 效 状 态 ) 见 表 17-1。 
表 17-1 融合 支付 销 账 失败 返回 码 统计 分 析 〈 账 户 不 存在 或 当前 不 是 有 效 状 态 ) 





























序号 记 “ 录 字段 说 明 
L 时 间 戳 合 支付 日 志文 件 中 记录 的 时 间 
2 日 志 级 别 日 志文 件 记录 的 级 别 
3 代码 类 融合 支付 调用 的 Java 类 代码 的 名 称 
4 行 号 Java 类 代码 中 在 行 号 位 置 打 的 日 志 
5 流水 号 描述 流水 号 描述 
6 流水 号 流水 号 
方法 描述 queryInvoice 描述 
8 MQ 返回 报 文 融合 支付 收 到 MQ 计 费 系统 的 返回 报 文 消息 记录 
9 MQ 计 费 系统 返回 代码 描述 | errCode 代码 描述 
10 “| MQ 计 费 系统 返回 代码 值 00000001 
师表 errDesc 描述 errDesc 描述 
12 ”| errDesc 中 文 返回 含义 errDesc 中 文 返回 含义 

















(2) 销 账 失败 返回 码 统计 分 析 。 例 如 ， 从 融合 支付 以 下 的 日 志 中 将 “设备 号 对 应 账号 为 
空 ”从 日 志 中 提取 出 来 。 
1. 2016-12-10 23:38:36,359 [DEBUG] [SocketUtils.java] : 94 -- Service 


socketReceiveMsgServe() received msg is 000355<?xml Version="1.0" 
encoding="UTF-8"?> 





a 


中 篇 “商业 案例 








<MsgRequest><Head><RequestSeq>1008*4846</RequestSeq><Command> 
Out*AccountNo</Command><RequestModule>shup</RequestModule></Head><Bod 
y><MQServiceId>5*9</MQServiceId></Body></MsgRequest> 
2016-12-10 23:38:36,484 [WARN ] [MOQueryRAccountNoBusiness.java]l : 278 —-— 
流 水 号 :1*46,queryAccountNo response:<soap:Envelope xmlns:soap 
="http://*/soap/envelope/"><soap:Body><ns2:queryAccountNoResponse 
xmlns:ns2="http://services.*.cn/"><response><head><errCode>00000001</ 
errCode><errDesc>java.lang.Exception: 设备 号 对 应 账号 为 空 
at cn.*.cmd.CTSH*Cmd .execute (CTSHQue</errDesc></head></response> 
</ns2:queryAccountNoResponse></soap:Body></soap:Envelope> 


2016-12-10 23:38:36,484 [ERROR] [MQQueryAccountNoBusiness.java] : 654 —-— 
流水 号 :10*4846 MQQueryAccountNoBusiness queryAccountNo() 账号 查询 失败 ! 
errCode:00000001 

2016-12-10 23:38:36, 484 [DEBUG] [NewZWService.java] : 405 一 一 六 六 水 玉米 闵 水 闵 六 闵 冰 水 
最 终 响 应 消息 : 000491<?xml version="1.0" encoding="UTF-8"?> 


融合 支付 销 账 失败 返回 码 统计 分 析 ( 设 备 号 对 应 账号 为 空 ) 见 表 17-2 所 示 。 


一 | 对 
忆 |o| 盖 | 局 |w 上 ww 遇 


三 








表 17-2 ”融合 支付 销 账 失败 返回 码 统计 分 析 〈 设 备 号 对 应 账号 为 空 ) 


记 录 字段 说 明 
时 间 惟 融合 支付 日 志文 件 中 记录 的 时 间 
日 志 级 别 日 志文 件 记录 的 级 别 
代码 类 融合 支付 调用 的 Java 类 代码 的 名 称 
行 号 Java 类 代码 中 在 行 号 位 置 打 的 日 志 
流水 号 描述 流水 号 描述 
流水 号 流水 号 
方法 描述 queryAccountNo 描述 
MQ 返回 报 文 融合 支付 收 到 MQ 计 费 系统 的 返回 报 文 消息 记录 


MQ 计 费 系统 返回 代码 描述 errCode 代码 描述 
MQ 计 费 系统 返回 代码 值 00000001 

errDesc 描述 errDesc 描述 

errDesc 中 文 返回 含义 errDesc 中 文 返回 含义 





通信 运营 商 内 部 融合 支付 平台 到 UAM 认证 系统 超时 分 析 。 例 如 ， 从 融合 支付 以 下 


志 中 将 “去 UAM 认证 的 业务 的 时 间 225 ms” 从 日 志 中 提取 出 来 。 


ST 


2016-12-25 23:41:40,062 [ERROR] [MQOAuthOperateBusiness.java] : 85 -- 去 
UAM 认证 的 业务 的 时 间 : >>>> Auth >>>> [225]ms 

2016-12-25 23:41:40,062 [DEBUG] [NewZWService.java] : 205 一 一 六 六 六 六 玉米 闵 闵 六 六 六 六 冰 
最 终 响 应 消息 : 000447<?xml version="1.0" encoding="UTF-8"?> 
<MsgResponse><Head><RespCode>0001</RespCode><ErrCode>9996</ErrCode> 
<ReplyCommand>Out*Operate</ReplyCommand><ReplySeq>001*524</ReplySeq>< 
ReplyModule></ReplyModule></Head></MsgResponse> 

2016-12-25 23:41:40,062 [DEBUG] [SocketUtils.java] : 59 -- SocketUtils 


socketSentMsg () return message >>>> 000947<?xml version="1: 0" 
encoding="UTP 8"2>. se 
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通信 运营 商 内 部 融合 支付 平台 到 UAM 认证 系统 超时 分 析 见 表 17-3 所 示 。 


表 17-3 到 UAM 认 证 系统 超时 分 析 
字段 说 明 






































1 | 时 间 戳 融合 支付 日 志文 件 中 记录 的 时 间 

2 ”| 日 志 级 别 日 志文 件 记录 的 级 别 

3 | 代码 类 融合 支付 调用 的 Java 类 代码 的 名 称 
4 行 号 Java 类 代码 中 在 行 号 位 置 打 的 日 志 

5 ] 志 记录 的 中 文 描述 说 明 

6 接口 方法 融合 支付 Java 代码 中 使 用 的 接口 方法 
7 时 间 融合 支付 到 UAM 认证 的 时 间 


(4) 通信 运营 商 内 部 融合 支付 平台 到 账 务 计 费 系统 MQ 校 验 订单 业务 的 超时 分 析 。 例如 ， 
从 融合 支付 以 下 的 日 志 中 将 “MQ 校 验 订单 业务 的 时 间 57 ms” 从 日 志 中 提取 出 来 。 


1. 2016-12-05 23:41:45,484 [ERROR] [MQBillCheckBusiness.java] : 233 -- 
流水 号 :2016*418 MQ 校 验 订单 业务 的 时 间 : >>>> CheckBill >>>> [57]ms 

2. 2016-12-05 23:41:45,484 [DEBUG] [MQXMLParser.java] : 318 -- xmlStrrrr == 
<?xml version="1.0" encoding="UTF-8" ?><MsgResponse><Head><ErrCode> 
00000000</ErrCode><ErrDesc>Success</ErrDesc><ReplyCommand>CheckBill</ 
ReplyCommand><ReplyID>2016*18</ReplyID><ReplyModule>gateway</ReplyMod 
ule></Head><Body><Status>2</Status><BillDate>2016.12.01</BillDate><Bi 
llType>01</BillType><BillAmount>11910</BillAmount><InvoiceNo>1*0</Inv 
oiceNo><Result> 校 验 成 功 </Result></Body></MsgResponse> 

3. 2016-12-05 23:41:45,547 [DEBUG] [MQOXMLParser.java] : 139 -- docccc === 
false 


通信 运营 商 内 部 融合 支付 平台 到 账 务 计 费 系统 MQ 校 验 订单 超时 分 析 见 表 17-4 所 示 。 
表 17-4 ”到 账 务 计 费 系统 MQ 校 验 订单 超时 分 析 


























序号 记录 字段 说 明 
时 间 戳 合 支付 日 志文 件 中 记录 的 时 间 
2 日 志 级 别 日 志文 件 记录 的 级 别 
3 代码 类 合 支付 调用 的 Java 类 代码 的 名 称 
4 行 号 Java 类 代码 中 在 行 号 位 置 的 日 志 
5 流水 号 描述 流水 号 描述 
6 流水 号 流水 号 
7 ”| MQ 校 验 描述 MQ 校 验 订单 业务 描述 
8 接口 方法 融合 支付 Java 代码 中 使 用 的 接口 方法 
9 时 间 融合 支付 到 MQ 校 验 的 时 间 





(5) 通信 运营 商 内 部 融合 支付 平台 到 账 务 计 费 系统 MQ 账单 支付 业务 的 超时 分 析 。 例 如 ， 
从 融合 支付 以 下 的 日 志 中 将 “MQ 账单 支付 业务 的 时 间 507 ms” 从 日 志 中 提取 出 来 。 


F 2016-12-28 23:41:46,047 [ERROR] [MQBillPaymentBusiness.java] : 182 —- 
流水 号 :2016*9 MO 账单 支付 业务 的 时 间 : >>>> Payment >>>> [507]ms 

2. 2016-12-28 23:41:46,047 [DEBUG] [MOXMLParser.java]l : 138 -- xmlStrrrr == 
<?xml version="1.0" encoding="UTF-8" ?><MsgResponse><Head><ErrCode> 
00000000</ErrCode><ErrDesc>Success</ErrDesc><ReplyCommand>Payment</Re 
plyCommand><ReplyID>2016*19</ReplyID><ReplyModule>gateway</ReplyModul 





a 


中 篇 “商业 案例 








e></Head><Body><Result> 支 付 成 功 </Result></Body></MsgResponse> 
3. 2016-12-28 23:41:46,047 [DEBUG] [MOXMLParser.java]l : 239 -- docccc === 


false 


通信 运营 商 内 部 融合 支付 平台 到 账 务 计 费 系统 MQ 账单 支付 超时 分 析 见 表 17-5。 


表 17-5 到 账 务 计 费 系统 MQ 账单 支付 超时 分 析 









































序号 记录 字段 说 明 
1 时 间 稚 融合 支付 日 志文 件 中 记录 的 时 间 
的 日 志 级 别 日 志文 件 记录 的 级 别 
3 代码 类 融合 支付 调用 的 Java 类 代码 的 名 称 
4 行 号 Java 类 代码 中 在 行 号 位 置 打 的 日 志 
5 流水 号 描述 流水 号 描述 
6 流水 号 流水 号 
7 MQ 账单 支付 MQ 账单 支付 业务 描述 
8 接口 方法 融合 支付 Java 代码 中 使 用 的 接口 方法 
9 时 间 融合 支付 到 MQ 校 验 的 时 间 








17.1.3 融合 支付 系统 日 志清 洗 中 Scala 正则 表达 式 与 模式 匹配 结合 的 代 


码 实 战 


本 节 Spark 在 通信 运营 商 融 合 支 付 系统 日 志 统计 分 析 的 综合 应 用 案例 中 首先 定义 融合 支 
付 系统 日 志清 洗 的 正则 表达 式 规则 集 ， 然 后 根据 正则 表达 式 规则 集 进行 模式 匹配 ， 将 符合 融 
合 支 付 日 志 模式 匹配 的 结果 保存 到 本 地 文本 文件 中 。 


.融合 支付 日 志 分 析 正 则 表达 式 规则 集 
融合 支付 日 志 分 析 正 则 表达 式 规则 集 





口 提取 融合 支付 到 UAM 认证 的 时 间 。 
口 提取 融合 支付 到 计 费 账 务 系统 销 账单 失败 返回 码 〈 账 户 不 存在 ) 。 





口 提取 融合 支付 到 计 费 账 务 系统 MQ 校 验 订单 业务 的 时 间 。 

口 提取 融合 支付 到 计 费 账 务 系统 MQ 和 

口 提取 融合 支付 到 计 费 账 务 系统 销 账 失败 返回 码 〈 设 备 号 对 应 账号 为 空 ) 
融合 支付 日 志 分 析 正 则 表达 式 规则 集 代码 如 下 。 





package com.noc.ronghezhifu.cores 


* 融合 支付 日 志 正 则 表达 式 解 析 规 则 集 


Ms 
= 
4. hb 
DE 
Bs 
Ts 
2 /** 
Oe 
0 # 
于 下 
于 ee 
2 ai 


we 


object rhzfLogRegex { 


四 
:提取 融合 支付 到 UAM 的 日 志 
i 2017-01-15 17:47:56,242 [ERROR] [MOAuthOperateBusiness. 


: 45 -- 去 UAM 认证 的 业务 的 时 间 : >>>> Auth >>>> [31]ms 
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41. 


val RHZF UAM TIME REGEX = 
wm No (NST NS ONSH) (NSH = NST S222 INGE) >>>> 
(VSD(ONVSh) Sr 
/** 
* 正 则 表达 式 解 析 场 景 : 
* 日 志 分 析 : 提取 融合 支付 到 计 费 账 务 系 统销 账单 失败 返回 码 
* 日 志 样 本 : 2017-01-15 17:47:58,430 [DEBUG] [MQQueryInvoiceBusiness. 
*java] : 498 -- 流水 号 :372@@8698, queryInvoice response:<soap:Envelope 
*xmlns:soap="http://@@/soap/envelope/"><soap:Body><ns2:query InvoiceResponse 
*xmlns:ns2="http://@@.sh.cn/"><response><head><errCode>00000001</ 
*errCode><errDesc>com.@@.exception.ApplicationException: 账户 不 存在 
* 或 当前 不 是 有 效 状 态 
sh 
val RHZF MQ QueryInvoice ErrCode REGEX = 
pe CSH (NSEC SE NS) (NS NSH) (NS (NS (NSH (NS) 
<response><head><errCode> ([0-9]*)</errCode><errDesc>(.*): (\S+)$""".r 


/水 下 
*# 正 则 表达 式 解 析 场 景 : 
1: 日 志 分 析 : 提取 融合 支付 到 计 费 账 务 系统 Mo 校 验 订单 业务 的 时 间 
日 志 样 本 : 2017-01-15 17:41:21,654 [ERROR] [MQBillCheckBusiness. 


* 
* 
* java] : 233 -- 流水 号 :201708@636 MQ 校 验 订单 业务 的 时 间 : >>>> CheckBill 
* >>>>[554]ms 
* 2: 日 志 分 析 : 提取 融合 支付 到 计 费 账 务 系统 MQ 账单 支付 业务 的 时 间 
* 日 志 样 本 : 2016-12-15 15:14:30,263 [ERROR] [MQBillPaymentBusiness. 
*java] : 182 -- 流水 号 :2016@@41202 MQ 账单 支付 业务 的 时 间 : >>>> Payment >>>> 
*[423]ms 
* 
A 
val RHZF MQ CHECK ORDER TIME REGEX= 
NSEy NST (MSE (CNS) 2 (NSE) = (VST {NST (VST) >>>> (NSFY 
> ONSEN 


/冰冰 
*# 正 则 表达 式 解析 场景 ; 
* 日 志 分 析 : 提取 融合 支付 到 计 费 账 务 系 统销 账 失败 返回 码 
* 日 志 样 本 : 2016-12-15 21:31:52,015 [WARN ] [MOQueryRAccountNoBusiness . 
*java] : 278 -- 流水 号 :1008@@27, queryAccountNo response:<soap:Envelope 
*xmlns:soap="http://@@/soap/envelope/"><soap:Body><ns2:queryAccount 
*NoResponse xmlns:ns2="http://@@.sh.cn/"><response><head><errCode> 
*00000001</errCode><errDesc>jave. lang:Exception: 设备 号 对 应 账号 为 空 
来 

val RHZF MQ queryAccountNo ErrCode REGEX = 
(NSE (NSE OS ss ES NS Noh: (NS (SS 
(\S+) (.*)<response><head><errCode>([0-9]*)</errCode><errDesc>(.*): 
(NE 


2. 融合 支付 日 志 分 析 Spark 实 战 


融合 支付 日 志 分 析 Spark 实战 实现 如 下 。 
(1) Spark 上 下 文 初 始 化 。 类 似 于 之 前 各 商业 案例 的 Spark 初始 化 , 配置 相应 的 参数 初始 


化 Spark。 


3 
2 


Var masterUr] = "local[4]" 


var dataPath = "G://IMFBigDataSpark2017//IMFSparkAppsnew2017//data// 


tT 


中 篇 “商业 案例 








ronghezhifualipaylog//10gs20161215//zw out core-1og.2016-12-15" 


入 全 if (args.length > 0) { 

4. masterUrl = args (0) 

Se } else if (args.length > 1) { 
6 dataPath = args (1) 

| } 

8 


3 val sparkConf = new SparkConf() .setMaster (masterUr]l) .setAppName 


("rhzfAlipayLogAnalysis") 


I val spark = SparkSession 

7 加 .builder () 

了 -Config(sparkConf) 

流放 -getOrCreate () 

135 val sc = spark.sparkContext 


(2) 读 入 融合 支付 日 志文 件 中 的 中 文字 符 的 处 理 。 使 用 SparkContext 上 下 文 的 hadoopFile 
方法 ， 创 建生 成 一 个 InputFormat 输入 格式 的 HadoopRDD， 对 于 文本 中 的 每 行 记录 ，Hadoop 





的 RecordReader 类 重用 了 相同 的 可 写 对 象 , 将 为 同一 对 象 创建 多 个 引用 , 直接 缓存 返回 


RDD 


或 直接 传递 到 聚集 aggregation， 或 Shuffle 操作 中 。 如 果 计 划 直 接 使 用 缓存 、 排 序 或 聚集 操作 


Hadoop 可 写 对 象 ， 可 以 首先 使 用 map 转换 功能 。 这 里 我 们 进行 map 转换 ， 读 入 的 每 行 


是 Key-Value 格式 ，Key 值 (line. 1) 是 Hadoop 文件 每 行 的 序号 ，Value 值 (line. 2) 


数据 


入 的 每 行 融合 支付 的 日 志 数据 ， 将 读 入 融合 支付 日 志 的 字 节 码 按照 GBK 的 方式 读 取 变 成 字 


符 串 ， 就 能 顺利 地 读 入 融合 支付 日 志 中 的 中 文字 符 。 


1. val linesConvertToGbkRDD: RDD[String] = sc.hadoopFile(dataPath, classOf 


[TextInputFormat], classOf[LongWritable], classOf[Text], 4) 
.map(line => { 
new String(line. 2.getBytes, 0, line. 2.getLength, "GBK") 


wo 心 wN 


1 


(3) 根据 融合 支付 日 志 分 析 正 则 表达 式 规则 集中 的 各 种 情况 进行 模式 匹配 , 如 果 能 匹配 ， 
则 直接 返回 融合 支付 每 行 的 数据 (日 志 记录 包括 融合 支付 到 账 务 计 费 系统 的 失败 返回 码 记录 、 
各 种 超时 的 日 志 记录 ) ;如 果 匹 配 不 上 ， 则 是 正则 表达 式 规则 之 外 的 融合 支付 日 志 ， 这 些 日 
志 不 是 融合 支付 需要 的 ， 因 此 就 直接 返回 字符 MatcheIsNull。 创 建生 成 linesRegexd 的 RDD， 








其 数据 类 型 为 RDD[String]， 数 据 格式 为 经 过 清洗 的 融合 支付 的 每 行 日 志 记录 。 


十 val linesRegexd: RDD[String] = linesConvertToGbkRDD.map (rhzfline => { 

人 rhzfline match { 

SE case RHZF UAM TIME REGEX(uamLogl, uamLog2, uamLog3, uamLog4, 
uamLog5, uamLog6, uamLog7, uamLog8, uamLog9) 

4. => rhzfline 

a case RHZF MQ QueryInvoice ErrCode REGEX (mqLogl, mqLog2, mqLog3, 


mqLog4, mqLog5, mqLog6, mqLog7, Log8, mqLog9, mqLogl10, mqLogll, 
qbLog qbLog. qbLog qLog/, mqLog qLog qLog qLog 


mqLogl12, mqLogl3, mqLog14) 
> => rhzfline 


a case RHZF MO CHECK ORDER TIME REGEX (mqTimeLogl1, mqTimeLog2, 
mqTimeLog3, mqTimeLog4, mqTimeLog5, mqTimeLog6, mqTimeLog7, 


mqTimeLog8, mqTimeLog9, mqTimeLog10, mqTimeLogl11) 
93 => rhzfline 


上 局 case RHZF MQ queryAccountNo ErrCode REGEX (mqWarnLogl, mqWarnLog2, 


mqWarnLog3, mqWarnLog4, mqWarnLog5, mqWarnLog6, mqWarnLog7, 


mqWarnLog8, mqWarnLog9, mqWarnLogl0, mqWarnLogll, mqWarnLog12, 


= 720。 
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mqWarnLogl3, mqWarnLogl4 ,mqWarnLog15) 
=> rhzfline 
case => "MatcheIsNull" 
} 
| 





(4) 接 下 来 对 清洗 后 的 linesRegexd 的 RDD， 将 其 中 的 MatcheIsNul 字符 串 进行 过 滤 ， 
过 滤 完 毕 后 保存 为 本 地 文件 ， 为 了 减少 本 地 文件 的 数量 ， 可 以 使 用 coalesce 算 子 将 计算 的 结 
果 合 并 成 一 个 分 区 ， 生 成 一 个 文件 ， 后 续 就 可 以 加 载 文件 到 Splunk 中 进行 展示 。 


3 


2 





val linedFilterd: RDD[String] = linesRegexd.filter(! .contains ("Matche 
IsNull")) 
linedFilterd.coalesce(1) .saveAsTextFile("G://IMF*2017//ronghezhifu 
LogAnalysis2017//data//ronghezhifualipaylogresult//zw * 20170207") 


在 IDEA 中 运行 代码 ，Spark 再 对 融合 支付 系统 日 志 进 行 清洗 ， 保 存 到 本 地 文件 的 结果 
part-00000 如 下 。 


3 生 


2 


105 


2016-12-15 00:02:55,619 [ERROR] [MQBillPaymentBusiness.java] : 282 -—- 

流水 号 :20*60 MQ 账单 支付 业务 的 时 间 : >>>> Payment >>>> [419]ms 
2016-12-15 00:02:59,228 [ERROR] [MQBillCheckBusiness.java] : 233 -—- 
流水 号 :20*66 MQ 校 验 订单 业务 的 时 间 : >>>> CheckBill >>>> [147]ms 
2016-12-15 00:02:59,525 [ERROR] [MQBillPaymentBusiness.java] : 282 -- 
流水 号 :20*67 MO 账单 支付 业务 的 时 间 : >>>> Payment >>>> [287]ms 
2016-12-15 00:03:21,417 [DEBUG] [MQOQueryInvoiceBusiness.java] : 98 -- 
流水 号 :15c*59de61576,queryInvoice response:<soap:Envelope xmlns:soap= 
"http://*/soap/envelope/"><soap:Body><ns2:queryInvoiceResponse 
xmlns:ns2="http://*.sh.cn/"><response><head><errCode>00000001</errCod 
e><errDesc>*t .common.exception.ApplicationException: 账户 不 存在 或 当前 不 是 
有 效 状 态 
2016-12-15 00:03:32,855 [DEBUG] [MQOQueryInvoiceBusiness.java] : 98 -- 
流 水 号 :1156*4f70,queryInvoice response:<soap:Envelope xmlns:soap= 
"http://*/envelope/"><soap:Body><ns2:queryInvoiceResponse 
xmlns:ns2="http://*.sh.cn/"><response><head><errCode>00000001</errCod 
e><errDesc>*.exception.ApplicationException: 账户 不 存在 或 当前 不 是 有 效 状态 
2016-12-15 00:03:33,027 [ERROR] [MQBillCheckBusiness.java] : 233 -- 
流水 号 :1008*43 MOQ 校 验 订单 业务 的 时 间 : >>>> CheckBill >>>> [110]ms 
2016-12-15 00:03:33,183 [ERROR] [MQOQueryAccIdBusiness.java] : 53 —- 
流水 号 :1008*5643 MQ 条 码 号 查询 分 账 序号 业务 的 时 间 : >>>> QueryAccExternalId >>>> 
[247]ms 
2016-12-15 00:03:33,417 [ERROR] [MQBillPaymentBusiness.java] : 282 -- 
流水 号 :100*5643 MQ 账单 支付 业务 的 时 间 : >>>> Payment >>>> [109]ms 
2016-12-15 00:03:49,215 [ERROR] [MQOBillCheckBusiness.java] : 233 -- 
流水 号 :201*861 MOQ 校 验 订单 业务 的 时 间 : >>>> CheckBill >>>> [178]ms 
2016-12-15 00:03:49,512 [ERROR] [MQOBillPaymentBusiness.java] : 282 -- 
流水 号 :20*828863 MQ 账单 支付 业务 的 时 间 : >>>> Payment >>>> [287]ms 





本 地 文件 的 目录 结构 如 下 。 


a 
Za 
EE 全 
4. 


._SUCCESS .crc 
-part-00000 .crc 

SUCCESS 
part-00000 


和 半生 
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17.1.4 融合 支付 系统 日 志 在 大 数据 Splunk 中 的 可 视 化 展示 





Splunk 是 第 三 方 的 运 维 智能 平台 ， 通 过 监控 和 分 析 客 户 的 点 击 流 、 交 易 数据 、 信 息 安 全 


事件 和 网 络 活动 ， 获 取 有 价值 的 数据 。 作 为 第 三 方 的 日 志文 件 管理 工具 ， 其 
志 聚 合 、 搜 索 、 字 段 提 取 、 数 据 格 式 化 、 可 视 化 、 电 子 邮 件 提醒 。 


E 要 功能 包括 日 





Spark 在 通信 运营 商 融合 支付 系统 日 志 统计 分 析 中 的 综合 应 用 案例 ,将 应 | 
技术 进行 可 视 化 展示 ， 使 用 Web 图 表 方式 直观 地 展示 结果 。 


1. Splunk 工 具 安装 及 搜索 应 用 











日 第 三 方 Splunk 


在 Splunk 官网 (https:/www.splunkcom) 注册 新 用 户 ， 然 后 登录 Splunk 官网 的 下 载 页 
面 (https://www.splunk.com/en_us/download/splunk-enterprise.html) ， 下 载 Splunk 的 免费 版 
splunk-6.5.3-36937ad027d4-x64-release。Splunk 免费 版 可 免费 使 用 60 天 ， 免 费 期 间 每 天 最 多 
可 对 500 MB 数据 建立 索引 。 本 节 使 用 免费 版 本 完成 融合 支付 案例 的 展示 ， 如 图 17-3 所 示 。 


¢ Cs 一 ， [到 





Splunk Enterprise 6.5.3 


Index 500 MB/Day 5 


图 17-3 Splunk 下 载 页 面 


下 载 splunk-6.5.3-36937ad027d4-x64-release 到 本 地 ， 双 击 程序 ， 一 步 步 按照 提示 进行 安 


装 ， 如 图 17-4 所 示 。 





ched this box to accept the Lcense Agreement Wew License Agreenent 


Default Installation Options 
-Instal spurk Enterprise in C:\Program Fies phnk 
-Run Splunk Enterprise as Local System account 
-Greate Start MenuShortout 





国 Ca 





图 17-4 ”Splunk 安装 


“Is 
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Splunk 安装 完成 以 后 ， 在 浏览 器 中 输入 http://localhost:8000/， 打 开 Splunk 登录 页 面 ， 首 
次 登录 须 修 改 密码 ， 输 入 用 户 名 、 密 码 ， 进 入 Splunk 系统 ， 如 图 17-5 所 示 。 


Splunk>enterprise 


First time s 





图 17-5 Splunk 登录 首页 


接 下 来 为 Splunk 添加 数据 来 源 , 在 Spark 通信 运营 商 融 合 支 付 系统 日 志 统 计 分 析 的 综合 
应 用 案例 中 ，Splunk 的 数据 来 源 是 之 前 经 过 Spark 数据 清洗 以 后 保存 的 本 地 文件 part-00000， 
如 图 17-6 所 示 。 








图 17-6_Splunk 添加 数据 


单 击 “ 添 加 数据 ”按钮 ， 弹 出 新 的 页 面 ， 在 新 的 页 面 中 单 击 “上载 ”按钮 ， 如 图 17-7 
所 示 。 








“Ts 
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Splunk 
添加 数据 


您 要 如 何 添 加 数据 ? 


SNE 


图 17-7 上 传 数据 
然后 选择 数据 来 源 。 数 据 来 源 选 择 的 文件 为 之 前 的 part-00000 (Splunk 免费 版 每 天 的 索 
引 数据 源 不 超过 500MB) ， 如 图 17-8 所 示 。 
所 @ | @ localhost:8000/zh-CN/manager/search/adddata/selectsource?input_mode=( 





Splunk 
添加 数据 ”一 ®@- - —O [mE 


选择 数据 来 源 设置 来 源 类 型 输入 设置 检查 


选择 数据 来 源 
通过 浏览 您 的 计算 机 或 格 文件 邱 到 下 面目 标 杠 中， 选择 文件 以 上 载 到 Splunk。 了 解 更 多 信息 外 
选 定 的 文件 : part-00000 

选择 文件 


中 


文件 上 载 大 小 为 500 MB 
充 成 





图 17-8 选择 数据 来 源 


选择 好 数据 来 源 ， 接 下 来 配置 来 源 的 类 型 来 区 分 各 种 数据 ， 这 里 设置 数据 来 源 的 名 称 为 
rhzf2017， 单 击 “ 保 存 ” 按 钮 进行 保存 ， 如 图 17-9 所 示 。 

对 于 Splunk 导入 的 数据 来 源 ， 可 以 设置 主机 字段 值 ,说 明 数 据 来 自 哪 台 主机 设备 ， 这 里 
设置 为 thzf61， 如 图 17-10 所 示 。 


.724 
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€ 3 C | lecalhost:s000/:: 





图 17-9 设置 来 源 类 型 





输入 设置 

梧 钙 要 号 比 闪 负 站 尖 他 欠 入 估 各 认 于 0 下: 

主机 

身 Sohes 案 | 雪 地 地 人 事件 裕 科 一 个 Tosr 什 。 主 信人 应 力主 所 事件 

外 关机 名 入 作 寺 人 所 入 产科 证 了 可 网 和 寺 硕 。 7 三 更 冯 有 由 TT 
#5 ml 

索引 

pure 在 二 和 人 引申 必 信 入 甬 间 奸 力 素 件 。 名 各 人 在 全 亲生 

1 加 精 ， 出 笑 全 Yarchcr 家 引 作为 上 人 ，Sancecy 二 引 本 号 sel [BU | en 


准时 由 量 两 不 合 果 和 全 产 守 引 ” 全 内 必 本 以 要 后 更 入 此 冯 置 。 地 


图 17-10 设置 主机 名 
单 击 “ 下 一 步 ” 按 钮 ，Splunk 系统 检查 之 前 的 配置 情况 ， 如 图 17-11 所 示 。 


EF 3 © | @ localbost:t000/ ch-C eaeager/ soared assssta /rerie 


湛 加 数据 一 一 一 一 包 〇 | 


3 闻 用 肖 生 六 。 避 并 关 习 全 和 衣 置 。 扯 醒 


检查 


图 17-11 检查 页 面 


Splunk 检查 完成 后 ，Splunk 打开 搜索 页 面 ， 在 页 面 中 搜索 数据 来 源 是 part-00000， 主 机 
名 称 为 中 zf61， 数 据 来 源 类 型 是 thzf2017 的 数据 。 至 此 ，Splunk 初步 的 安装 应 用 完成 ， 简 单 
直观 地 显示 出 融合 支付 日 志 的 时 间 索 引 图 ， 如 图 17-12 所 示 。 


.725 。 
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Sources"part-00000" hoste"rhzf61" sourcetypes"rhzf2017" 所 有 相间 v QQ 
/106257 个 事件 (17/08/24 200012000 之 最) 二 委任 半 和 Y 生计 量 暂 状 机 式 Y 
本 你 (106.257) 物 式 培 计 信息 司机 化 
各 富 时 局 考 的 梯 式 ~ - 忆 : 得 列 1146 
EL | i es ee fe i [| > -一 
《用 其 守 及 三 所 有 守信 | bd 

> 1011215 2016-12-15 23;59;59,843 [ERROR] [WOAuthOperateBusiness, Java] ; 45 去 WAM 大 证 的 业 和 的 时 间 ; >>>> 入 

235959843 uth >>>> 【62] 人 多 种 


He -OOO -iT 
》 181215 。。 2016-12-15 罗 ; 人 9;59,109 [ERROR】 [WOAuthOperareBusinexy java】 45 -二 UAW 以 证 的 业务 的 和 交 ; >>>> 人 
五 区 多 109 uth >>>> 【47] 委 和 
mi Gee = OO ere -DO 





图 17-12 初步 检索 的 结果 


2. 融合 支付 到 UAM 认 证 时 间 在 Splunk 中 的 应 用 


本 节 实 现 融 合 支 付 到 UAM 认证 时 间 在 Splunk 中 的 应 用 。 之 前 我 们 在 Spark 中 已 进行 数 
据 清 洗 ，part-00000 文件 已 作为 数据 源 导入 到 Splunk 中 。part-00000 的 数据 格式 如 下 。 


:I 2016-12-15 00:06:41,552 [ERROR] [MQBillPaymentBusiness.java] : 82 -- 
流水 号 :201*209 MO 账单 支付 业务 的 时 间 : >>>> Payment >>>> [156]ms 

2. 2016-12-15 00:06:42,912 [ERROR] [MQAuthOperateBusiness.java] : 45 -- 去 
UAM 认证 的 业务 的 时 间 : >>>> Ruth >>>> [219]ms 

3. 2016-12-15 00:06:49,271 [ERROR] [MQBillCheckBusiness.java] : 133 -- 
流水 号 :2016*20 MQ 校 验 订单 业务 的 时 间 : >>>> CheckBill >>>> [62]ms 

4. 2016-12-15 00:06:49,568 [ERROR] [MOBillPaymentBusiness.java] : 82 -- 
流水 号 :2016*22 Mo 账单 支付 业务 的 时 间 : >>>> Payment >>>> [203]ms 


在 Splunk 中 展示 融合 支付 到 UAM 认证 业务 的 时 间 ， 首 先 我 们 需 将 到 UAM 系统 认证 的 
时 间 提 取出 来 作为 一 个 单独 的 字段 ， 然 后 在 Splunk 中 根据 Splunk 的 查询 语句 进行 业务 需求 
的 查询 。 在 图 17-13 所 示 页 面 中 点 击 “ 提 取 新 字段 ”链接 ， 进 入 提取 新 字段 的 页 面 。 


感 兴趣 的 字段 

# date_hour 24 

# date mday 1 

# date_minute 60 
a date_month 1 
# date_second 60 
a date wday 1 

# date_year 1 

a date_zone 1 

a index 1 

# linecount 1 

a punct 4 

a splunk_server 1 
# timeendpos 1 
# timestartpos 1 


还 有 2 个 字段 
十 提取 新 字段 


17-13 ”提取 字段 


“TG® 
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在 提取 字段 页 面 的 事件 列表 中 选择 示例 事件 ， 这 里 点 击 融合 支付 到 UAM 认证 的 时 间 记 





录 ， 然 后 单 击 “ 下 一 步 ”按钮 进入 下 一 个 步骤 ， 如 图 17-14 所 示 。 





[= © | © localhost:s000/zh-Cs 








选择 示例 事件 


选择 数据 来 源 或 来 源 类 型 ， 选 择 示 例 事件 ， 的 后 单 击 " 下 一 步 "进入 下 一 步骤 。 该 字段 提取 器 将 使 用 该 事件 来 提取 字段 。 了解 更 多 信息 世 
我 更 喜欢 | 则 表达 式 > 





数据 来 源 类 型 rhzf2017 


2016-12-15 23:59:59,843 [ERROR] [MQAuthOperateBusiness.java] 





事件 


~ 1,000 个 事件 (17/08/24 20:12.57.000 之 前 ) 原始 搜索 包括 : 7 Cd 每 页 20 个 v 1 





示例 : 1,000 个 事件 ~ 所 有 事件 ~ 


_raw 


2016-12-15 23:59:59,843 [ERROR] [MQAuthOperateBusiness.java] 45 去 UAM 认 证 的 业务 的 时 间 : >>>> Auth >>>> [f623] 变 秒 
图 17-14 提取 字段 选择 记录 
选择 正则 表达 式 作为 提取 融合 支付 到 UAM 认证 时 间 字 段 的 方法 。 单 击 “ 下 一 步 ” 按 钮 


继续 ， 如 图 17-15 所 示 。 





提取 字段 一 一 一 6 一 一 0 


选择 示例 选择 方法 选择 字段 








您 想 用 来 提取 您 的 字段 的 方法 。 了 解 更 多 信息 巴 
我 更 喜欢 自己 编写 正则 表达 式 > 


来 源 类 型 rhzf2017 


perateBusiness.java] : 45 








Splunk Enterp 





图 17-15 选择 正则 表达 式 


“Ts 
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Splunk 工具 提供 强大 的 自动 生成 正则 表达 式 功 能 。 在 选择 字段 的 时 候 ， 突 出 显示 我 们 要 
提取 的 数据 ， 这 里 选择 “62”ms 融合 支付 到 UAM 认证 的 时 间 ) ， 则 Splunk 会 自动 弹出 输 
入 框 ， 将 提取 的 “62”ms 定义 为 一 个 字段 名 称 RhzfToUAM。RhzfToUAM 字段 的 示例 值 为 
62, RhzfToUAM 字段 代表 在 导入 part-00000 文件 中 匹配 的 每 行 记 录 融 合 支付 到 UAM 的 认证 
时 间 ， 其 实现 是 根据 Splunk 生成 的 正则 表达 式 自 动 识别 的 ， 如 图 17-16 所 示 。 


提取 字段 SR < 
鞍 所 字 自 。 蒋 去 


现 有 字 稀 > 


选择 字 届 


实 出 县 示 示 例 事件 中 的 一 个 臣 罗 个 售 以 侧 建 字段 。 息 可 指示 一 个 全 为 作坊， 这 莫 叶 着 读 信 必须 有 在 于 事件 中 ， 以 区 配 正 则 泰达 式 。 单 击 示例 事件 中 突出 县 示 的 全 以 修 允 这些 信 .要 突出 县 示 已 经 是 现 有 
挫 腿 一 部 分 的 文 李 ， 请 先 关闭 现 有 搜 取 ， 了 名 下 条 信息 世 


2016-12-15 23:59:59,843 [ERROR] [ANuthOperareBusiness ,Java] : 45 “” 去 UAI 人 十 的 业 表 的 9 风 : >>>> Auth >>>> [2] 委 和 





组 职 贿 旨 
7 nk nc 保留 所 | 9 
字 队 名 入 RhzfTouUAM | Pe 


关于 误 持 it 文 的 。 网 公 人 





图 17-16 提取 到 UAM 的 时 间 


Splunk 提供 了 校 验 验证 的 功能 。 在 上 述 自动 提取 字段 的 过 程 中 ，Splunk 可 能 将 类 似 的 时 
间 记 录 都 提取 出 来 了 ， 需 要 根据 融合 支付 的 业务 场景 进一步 清理 过 滤 。 如 在 提取 融合 支付 到 
UAM 认证 的 时 间 过 程 中 ， 也 可 能 提取 到 融合 支付 到 MQ 账单 支付 业务 的 时 间 : [484]ms。 
Splunk 提供 了 便捷 的 功能 ， 在 页 面 的 事件 列表 中 ， 每 个 时 间 后 面 有 一 个 “X ”符号 ， 直 接点 
击 一 个 MQ 账单 支付 业务 的 时 间 : [484]ms 后 面 的 “XxX ”符号 ， 就 能 将 part-00000 文件 类 似 的 
记录 从 UAM 认证 时 间 匹 配 的 正则 表达 式 中 清洗 出 去 。 这 样 ， 通 过 正则 表达 式 过 滤 出 融合 支 
付 到 UAM 认证 的 时 间 ， 如 图 17-17 所 示 。 





| Te 
如 排 冰 全。 戏 择 方法。 如 人 
验证 
过 证 您 的 字段 提取 ， 并 出 除 更 件 选项 卡 错误 实 出 显示 约 值 。 在 字段 选项 卡 上 ,检查 每 个 字段 的 提取 信和， 并 根据 贫 间 单 记 革 个 值 ， 以 行 其 作为 搜索 过 小 央 应 用 到 事件 选项 卡 标 件 列表 上 
加 | 0 241523199058091 epaon) [uqBil1paymentBusiness.java] : 82 -- 流水 号 ;201612152333U029069 WQ 隆 音 支 何 业 务 的 时 间 : >>>> Payment >>>> [484] 壹 
徐 
县 示 正 刚直 这 式 》 在 朱 本 中 直 着 蔬 
事件 RhztToUAM 
~ 1000 个 事件 (17108/24 20.20.53.000 之 前 ) 怖 好 搜索 包括 :7 本 与 页 20 个 v 工 攻 和 胃 汪 省 ， 8 9 下 
过 过 号 示例 1.000 个 要件 ~ 新 有 事件 所 有 事件 ”匹配 。 不 区 配 
raw RhzfrouAM 
2016-12-15 23:59:59,843 【ERROR] [MQAuthOperateBusiness.java] : 45 -- 主 UA 认 证 的 业务 的 时 间 : >>>> Auth >>>> 【2 稳 ] 查 和 全 


图 17-17 过 滤 掉 不 符合 规则 的 数据 


“T2288e 
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然后 保存 提取 字段 的 结果 , 就 完成 了 融合 支付 到 UAM 认证 时 间 字 段 的 提取 , 如 图 17-18 
所 示 。 





保存 


提取 和 名称 。 EXTRACT RhzfToUAM 
所 有 者 admin 
应 用 search 


权限 所 有 者 | 应 用 | 所 有 应 用 


图 17-18 字段 提取 完成 


在 Splunk 搜索 页 面 中 , 根据 融合 支付 的 业务 场景 , 输入 Splunk 的 搜索 语句 index=_* OR 
index=* sourcetype=rhzf2017 | timechart max(RhzfToUAM) span=lm， 检 索 出 : 时 间 间 隔 每 隔 
lmin， 数 据 来 源 是 thzf2017， 按 照 时 间 轴 生成 图 表 ， 统 计 每 一 分 钟 融合 支付 到 UAM 认证 最 
大 时 间 的 时 间 数 值 。 通 过 Splunk 强大 的 可 视 化 展示 功能 ， 就 能 轻松 地 展示 出 Spark 数据 处 理 
的 成 果 ， 如 图 17-19 所 示 。 


vv 106.257 个 事件 (17/08/24 202603 000 之 阿 ) 无 事件 未 大 ~ 位 务 ~v Wn I 
事件 Lb 刀 计 个 息 (1440) | 司 视 人 
NT 
000 
3 
所 
#2000 
E 
mm bm phe TT 
; 00 aog 1200 1600 2000 
1215 MD 


图 17-19 融合 支付 至 UAM 系统 时 间 


3. 融合 支付 到 计 费 账 务 系统 销 账 失败 返回 码 统计 在 Splunk 中 的 应 用 


本 节 实 现 融 合 支付 到 计 费 账 务 系统 销 账 失败 返回 码 统计 。 同 样 ， 使 用 已 导入 Splunk 的 
part-00000 文件 ，part-00000 的 数据 格式 如 下 。 


+ 2016-12-15 00:09:00,856 [DEBUG] [MOQueryInvoiceBusiness.java] : 198 -—-— 
流水 号 :*ecc,queryInvoice response:<soap:Envelope xmlns:soap="http: 
//*/soap/envelope/"><soap:Body><ns2:queryInvoiceResponse xmlns:ns2= 
"http://*.sh.cn/"><response><head><errCode>00000001</errCode> 


x Te 


中 篇 “商业 案例 








<errDesc>*.exception.ApplicationException: 账户 不 存在 或 当前 不 是 有 效 状态 

2. 2016-12-15 00:09:01,278 [ERROR] [MQBillCheckBusiness.java] : 133 —- 
流水 号 :2016*76 MQ 校 验 订 单 业务 的 时 间 : >>>> CheckBill >>>> [78]ms 

3. 2016-12-15 00:09:01,575 [ERROR] [MOBillPaymentBusiness.java] : 82 —- 
流水 号 :2016*78 MQ 账单 支付 业务 的 时 间 : >>>> Payment >>>> [188]ms 

4. 2016-12-15 00:09:13,404 [DEBUG] [MQQueryInvoiceBusiness.java] : 198 —- 
流 水 号 :*5f17,queryInvoice response:<soap:Envelope xmlns:soap= 
"http://*.org/soap/envelope/"><soap:Body><ns2:queryInvoiceResponse 
xmlns:ns2="http://*.cn/"><response><head><errCode>00000001</errCode>< 
errDesc>*.exception.ApplicationException: 账户 不 存在 或 当前 不 是 有 效 状态 


在 Splunk 中 展示 融合 支付 到 计 费 账 务 系统 销 账 失败 返回 码 统计 , 我 们 需 将 融合 支付 到 计 
费 账 务 系统 销 账 失败 返回 码 提取 出 来 作为 一 个 单独 的 字段 ， 然 后 在 Splunk 中 根据 Splunk 的 
查询 语句 进行 业务 需求 的 查询 。 单 击 “ 提 取 新 字段 ”， 进 入 提取 字段 的 页 面 。 





泻 
车 


回 码 的 记录 ， 然 后 单 击 “ 下 一 步 ” 按 钮 进入 下 一 个 步 又， 如 图 17-20 所 示 。 
提取 六 段 人 ED Fr 








Annme a 
Nes 





用 条 雪人 rhafa9n7 


图 17-20 提取 失败 码 字段 
选择 正则 表达 式 作为 提取 融合 支付 到 计 费 账 务 系统 销 账 失 败 返回 码 的 方法 。 单 击 “ 下 
步 ” 按 钮 继续 ， 如 图 17-21 所 示 。 
提取 字段 ee < 
选择 方法 


指示 您 起 用 来 姑 取 你 的 字 耻 的 方法 。 了 骨 委 条 伪 息 忆 
站 让 己 六 


二 要 兴 便 rhzf2017 





图 17-21 提取 字段 
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Splunk 工具 提供 强大 的 自动 生成 正则 表达 式 的 功能 。 在 选择 字段 的 时 候 ， 突 出 显示 我 们 
要 提取 的 数据 ， 如 图 17-22 所 示 。 这 里 选择 “账户 不 存在 或 当前 不 是 有 效 状态 ”融合 支付 
到 计 费 账 务 系统 销 账 失败 返回 码 含 义 ) ， 则 Splunk 会 自动 弹出 输入 框 ， 将 提取 的 “账户 不 存 
在 或 当前 不 是 有 效 状态 ”定义 为 一 个 字段 名 称 thzfToMQEmrCode。rhzfToMQErCode 字段 的 
示例 值 为 “账户 不 存在 或 当前 不 是 有 效 状 态 ”，RhzfToUAM 字段 代表 融合 支付 到 计 费 账 务 
系统 销 账 失败 返回 码 含 义 ， 失 败 返 回 码 可 能 包含 多 种 含义 。 

口 账户 不 存在 或 当前 不 是 有 效 状 态 。 

口 不 可 以 查询 军政 用 户 账单 。 











eq G 


择 示 例 选择 方法 选择 字段 验证 保存 





提取 | 需要 | 
选择 字段 字段 名 称 | rhzfroMQErrCodd | 
突出 显示 示例 事件 中 的 一 个 或 多 个 值 以 创建 字段 。 您 可 指示 一 个 值 为 必 填 ， 这 意 oo 示例 
提取 一 部 分 的 文本 ， 请 先 关闭 现 有 提取 。 了 解 更 多 信息 己 示例 值 账户 不 存在 或 当前 不 是 有 效 状 
二 2 | 态 = 
2016-12-15 23:59:31,797 [DEBUG] [MQQueryInvoiceBusiness.jal Ife37a2 
<soap:Envelope xmlns:soap="http://schemas.xmlsoap.org/soap ceResp 





xmlns:ns2="http://services.iam_payment.ideal.sh.cn/"><reSspbsme 一 ee ee 
<errDesc>com.ctsh.payment.common.exception.ApplicationException: (账户 不 存在 或 当前 不 是 有 效 状态 


图 17-22 ”配置 字段 名 


Splunk 提供 了 校 验 验证 的 功能 ， 这 里 检查 过 滤 的 记录 都 为 账户 不 存在 或 当前 不 是 有 效 状 
态 ”《〈 融 合 支付 到 计 费 账 务 系统 销 账 失败 返回 码 含义 ) ， 如 图 17-23 所 示 。 


3 有 LO 1 en 
起 经 示例 。。” 赴 纤 万 法 。 起 多 字 摘 。 答 运 。。 人 和 
验证 
签证 您 的 他所 请 联 ， 并 项 喀 事件 过 栅 卡 个 代 突 出 旺 示 的 值 。 在 字段 选项 卡 上 ， 检 查 每 个 字段 的 进取 值 ， 片 神州 同 更 单 击 某 个 值 ， 以 开 其 作 力 搜索 过 潜 加 后 用 刊 事件 远 项 下 事件 列表 上 - 
县 所 正则 表达 式 》 在 搜索 中 查看 已 
事件 rhafToMOEnCode 
v446 个 事件 (17/08124 203447 000 之 天 原 铭 搜索 组 括 : 2 各 而 20 个 ~ 2 34 5 67 8 TS 
rhzfToMOErmCode= 余 户 不 但 在 或 当前 1 示 余 1000 个 事件 ~ | | 所 有 事件 ~ | 所 有 事 从 区 配 不 区 起 
ow ‘shzfToMQErCode 
~ 2016-12-15 23:59:31,797 [DEBUG】 [WaQueryInvoiceBusiness. Java] : 198 -- 流水 赎 户 不 存在 或 当 拓 不 是 有 效 状态 


号 ;1f972401cc19308459efe37a2cde2d9d, queryInvoice response:<soap:Envelope 
xmlns:soap=“http://schemas xml soap.org/soap/envelope/"><soap:Body><ns2: queryInvoiceResponse 


17-23” 校 验 验 证 


然后 保存 提取 字段 的 结果 ， 就 完成 了 融合 支付 到 计 费 账 务 系统 销 账 失败 返回 码 字段 的 提 
取 ， 如 图 17-24 所 示 。 


“732 


中 篇 “商业 案例 











名 © | © localhost:8000/zh-CN/app/sear 
splunk 
搜索 。 数据 第 








成 功 ! 
您 已 从 您 的 数据 (sourcetype=rhzf2017) 上 提取 其 他 字段 。 
通过 转 到 字段 提取 随时 编辑 您 89 字 段 提取 。 


图 17-24 ”提取 完成 


在 Splunk 搜索 页 面 中 , 根据 融合 支付 的 业务 场景 ， 输 入 Splunk 的 搜索 语句 index=_* OR 
index=* sourcetype=rhzf2017| timechart count(rhzfToMQEmrCode) span=1m， 检 索 出 : 时 间 间 隔 
每 隔 lmin， 数 据 来 源 是 thzf2017， 按 照 时 间 轴 生成 图 表 ， 统 计 每 一 分 钟 融合 支付 到 计 费 账 务 
系统 销 账 失败 返回 码 的 总 计数 。 通 过 Splunk 强大 的 可 视 化 展示 功能 ， 就 能 监控 到 某 时 刻 融 合 
支付 到 账 务 计 费 系 统 的 销 账 失败 出 现 总 次 数 ， 如 出 现 峰 值 ， 就 能 监控 到 系统 是 否 出 现 异 常 ， 
也 可 及 时 提供 给 支付 宝 公 司 ， 给 用 户 支付 宝 账单 查询 及 缴 付 提示 ， 如 图 17-25 所 示 。 








indexw_。o indexe® sourcetypesrhzf2087| timechart counttrhzfTawqErrCode) spaneie 
~ 106257 个 事件 (17/08/24 2037.50 000 之 前 ) 并 请 和 
事件 神 式 锭 证 信息 (1440) | 可 机 化 

新 屿 园 v Et 
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图 17-25 ”融合 支付 计 费 返回 失败 码 统计 次 数 
在 Splunk 搜索 页 面 中 , 根据 融合 支付 的 业务 场景 , 输入 Splunk 的 搜索 语句 index=_* OR 
index=* sourcetype=rhzf2017 | rare limit=20 rhzfToMQErrCode, 检索 出 : 数据 来 源 是 rhzf2017， 
融合 支付 到 计 费 账 务 系统 销 账 失败 返回 码 各 种 情况 的 汇总 统计 情况 。 如 “不 可 以 查询 军政 用 
户 账单 ”计数 2 次 , 占 比 16%,“ 账 户 不 存在 或 当前 不 是 有 效 状态 ”计数 1189 次 , 占 比 99%， 
如 图 17-26 所 示 。 


index=。 








0 rhzfTawqErrCode 所 有 时 间 ~ QQ 





106257 个 事件 (17/08/24204015 000 之 前 ) ”元 莫 件 二 伴 v 二 


事件 本 下 后 计 便 息 人 可 恨 雍 








图 17-26 融合 支付 到 计 费 账 务 系统 销 账 失败 返回 码 
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同样 


融合 支付 日 志 统计 的 其 他 情况 也 可 在 Splunk 中 展示 ， 这 里 不 再 袭 述 。 


17.1.5 ”融合 支付 系统 日 志 统计 分 析 案 例 涉 及 的 正则 表达 式 知 识 点 及 
案例 代码 


Spark 在 通信 运营 商 融 合 支 付 系统 日 志 统 计 分 析 中 的 综合 应 用 案例 ， ss Spark 对 日 志 
文件 的 解析 ， 还 是 Splunk 自动 提取 字段 ， 都 应 用 到 正则 表达 式 的 知识 。 本 节 主 要 对 正则 表达 
式 的 概念 及 在 大 数据 系统 中 的 应 用 进行 讲解 。 


.正则 表达 式 概念 及 日 志 分 析 案 例 


在 文本 检索 、 日 志 分 析 等 大 数据 处 理 过 程 中 ， 正 则 表达 式 起 着 非常 重要 的 作用 ， 是 必须 
掌握 的 基础 知识 。 在 正则 表达 式 的 知识 基础 上 ， 可 拓展 学 习 词法 分 析 器 (Lexer) 、 语 法 分 析 
器 〈Parser) 、 语 法 树 分 析 器 (Ast parser) 的 相关 内 容 。 

正则 表达 式 (Regular Expression) 在 代码 中 常 简写 为 regex、regexp 或 RE。 正 则 表达 式 

通常 用 来 检索 、 替 换 符合 某 个 规则 的 文本 。 正 则 表达 式 最 初 从 UNIX 中 的 工具 软件 (sed 和 
grep) 普及 。 

要 用 好 正则 表达 式 ， 必 须 正 确 地 理解 元 字符 。 表 17-6 列 出 了 本 节 案 例 涉 及 的 一 些 元 字符 
及 描述 。 

















表 17-6 正则 表达 式 
元 字符 描 述 
匹配 输入 字符 串 的 开始 位 置 。 如 果 设 置 了 RegExp 对 象 的 Multiline 属性 ，^ 也 匹配 “\” 或 
“\r” 之 后 的 位 置 
匹配 输入 字符 串 的 结束 位 置 。 如 果 设 置 了 RegExp 对 象 的 Multiline 属性 ，$ 也 匹配 “\n” 或 
“\r” 之 前 的 位 置 
日 匹配 前 面 的 子 表达 式 任意 次 。 例 如 ，zo* 能 匹配 “z”， 也 能 匹配 “zo” 以 及 “zoo” 
匹配 前 面 的 De -次 或 多 次 (大 于 等 于 1 次) 。 例如，“zot+” 能 匹配 “zo” 以 及 “zoo”， 
但 不 能 匹配 。+ 等 价 于 {1,} 
匹配 前 面 的 过 二 间 关 -次 。 例 如 ,， “do 人 es)2?” 可 以 匹配 “do” 或 “does” 中 的 “do”， 
?等 价 于 {0,1} 
fm} n 是 一 个 非 负 整 数 。 匹 配 确 定 的 n 次。 例如 ，“o{2}” 不 能 匹配 “Bob” 中 的 “o”， 但 是 
能 匹配 “food” 中 的 两 个 o 
n 是 一 个 非 负 整数 。 至 少 匹 配 n 次 。 例 如 ，“o{2,}” 不 能 匹配 “Bob” 中 的 “o”， 但 能 匹 
包 } | 配 “foooood” 中 的 所 有 0。 “of1,}” 等 价 于 “ot”。 “of0,}” 则 等 价 于 “o*” 
mm 和 n 均 为 非 负 整数 ， 其 中 n<=m。 最 少 匹 配 n 次 且 最 多 匹配 m 次 。 例 如 ，“o{1,3}” 将 
{mm} 匹配 “fooooood” 中 的 前 三 个 o。“o{f0.1} ”等 价 于 “o?”。 注 意 ， 喜 号 和 两 个 数 之 间 不 能 
有 空格 
当 该 字符 紧 跟 在 任何 一 个 其 他 限制 符 (*,+,?， 生 }y， 生 }，{n,m} ) 后 面 时 ， 匹 配 模式 是 非 
贪 禁 的 。 非 贪 禁 模 式 尽 可 能 少 地 匹配 所 搜索 的 字符 串 ， 而 默认 的 贪 禁 模式 则 尽 可 能 多 地 匹 
配 所 搜索 的 字符 串 。 例 如 ， 对 于 字符 串 “oooo”，“o+” 将 匹配 每 个 “o”， 即 4 次 匹配 ， 
而 “ot+?” 将 只 匹配 1 次 ， 即 匹配 “0000” 
匹配 pattem 并 获取 这 一 匹配 。 所 获取 的 匹配 可 以 从 产生 的 Matches 集合 得 到 ， 在 VBScript 
(pattem) | 中 使 用 SubMatches 集合 ,在 JScript 中 则 使 用 $0...$9 属性 。 要 匹配 圆 括 号 字符 ,请 使 用 “” 
或 “” 


和 人 






































-Ts 
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续 表 
元 字符 描 述 
非 获取 匹配 , 匹配 pattem 但 不 获取 匹配 结果 , 不 进行 存储 供 以 后 使 用 .这 在 使 用 或 字符 “(|)” 
(?:patterm) | 来 组 合 一 个 模式 的 各 个 部 分 时 很 有 用 。 例 如 ，“ industr(?:ylies) ”就 是 一 个 比 
“industrylindustries” 更 简略 的 表达 式 
非 获取 匹配 ， 正 向 肯定 预 查 ， 在 任何 匹配 pattem 的 字符 串 开始 处 匹配 查找 字符 串 ， 在 一 个 
匹配 发 生 后 ， 在 最 后 一 次 匹配 之 后 立即 开始 下 一 次 匹配 的 搜索 
(?=pattern) | 例如 ，“Windows(?=95|98INTI2000)” 能 匹配 “Windows2000” 中 的 “Windows”， 但 不 能 
匹配 “Windows3.1” 中 的 “Windows”。 预 查 不 消耗 字符 ， 也 就 是 说 ， 在 一 个 匹配 发 生 后 ， 
在 最 后 一 次 匹配 之 后 立即 开始 下 一 次 匹配 的 搜索 ， 而 不 是 从 包含 预 查 的 字符 之 后 开始 
非 获 取 匹 配 ， 正 向 否定 预 查 ， 在 任何 不 匹配 pattem 的 字符 串 开始 处 匹配 查找 字符 串 ， 该 匹 
(?1pattern) | 配 不 需要 获取 供 以 后 使 用 。 例 如 ，“Windows(?195|98INTI2000)” 能 匹配 “Windows3.1” 中 
的 “Windows”， 但 不 能 匹配 “Windows2000” 中 的 “Windows” 
非 获 取 匹 配 ， 反 向 肯定 预 查 ， 与 正 向 肯定 预 查 类 似 ， 只 是 方向 相反 。 例 如 ， 
“(3<=95|98INTI2000)Windows ”能 匹配 “2000Windows ”中 的 “Windows”， 但 不 能 匹配 
“3.1Windows” 中 的 “Windows” 
非 获取 匹配 ， 反 向 否定 预 查 ， 与 正 向 否定 预 查 类 似 ， 只 是 方向 相反 。 例 如 ， 
“(3<195|98INTI2000)Windows ”能 匹配 “3.1Windows" 中 的 “Windows”， 但 不 能 匹配 
(2?<!pattern) |“2000Windows” 中 的 “Windows”。 如 果 有 多 项 ， 则 任意 一 项 都 不 能 超过 2 位 ， 如 
“(?<195|98INTI20)Windows 正确 ，“(?<!95|980INTI20)Windows 报错 ， 若 是 单独 使 用 ， 则 无 
限制 ， 如 (?<!2000)Windows 正确 匹配 



































(7?<=pattern) 














接 下 来 看 一 下 使 用 正则 表达 式 进 行 日 志 分 析 的 Java 代码 案例 。 
(1) 首先 定义 一 个 字符 串 列表 exampleApacheLogs， 存 放 模 拟 的 Apache 的 日 志 记 录 。 
Apache 的 日 志 格式 如 下 。 


1. public static final List<String> exampleApacheLogs = Lists.newArrayList( 

2. "10.10.10.10 - \"FRED\" [18/Jan/2013:17:56:07 +1100] \"GET http://images. 
com/2013/Generic.jpg "十 

3. "HTTP/1.1\" 304 315 \"http://referall.com/\" \"Mozilla/4.0 (compatible; 
MSIE 7 .07 二 

4. "Windows NT 5.1; GTB7.4; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET 
CLR 3.0.04506.648; "+ 

5 "NETCLR 3.5.21022; -NET CLR 3.0.4506.2152; .NET CLR 1.0.3705; .NET CLR 
3227 ET CUR 

6. "3.5.30729; Release=ARP)\" \"UD-1\" - \"image/jpeg\" \"whatever\" 0.350 
Nh 93 AN 二 

7. "62.24.11.25 images.com 1358492167 - Whatup", 


(2) 定义 日 志 解析 的 正则 表达 式 规则 apacheLogRegex， 解 析 Apache 的 日 志 记录 ， 按 照 
正则 表达 式 的 规则 进行 匹配 。 
1. public static final Pattern apacheLogRegex = Pattern.compilel( 
S(T IE) (NSTtY NSty ANIOENNwNAMaz/1atNNsIAN=TNNatSNNI 
Na S23 DE 
(3) 定义 一 个 Stats 类 ， 包 括 计数 和 字 节 数 两 个 属性 ，Stats 类 中 提供 了 两 个 方法 ， 其 中 
merge 方法 用 于 将 两 个 Stats 类 的 计数 、 字 节 数 分 别 进行 汇总 累加 ; toString0 方 法 返回 该 Stats 
对 象 的 字符 串 表示 。 





.734。 
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1. public static class Stats implements Serializable { 


2 

private final int count; 

4 private final int numBytes; 

J 

Be public Stats (int count, int numBytes) { 

了 - this.count = count; 

8< this.numBytes = numBytes; 

9. } 

10. 

了 public Stats merge (Stats other) { 

2- return new Stats (Count + other.count, numBytes + other.numBytes) ; 
13. 于 

14. 

机 public String toString() { 

16 . return String.format ("bytes=%s\tn=%s", numBytes, count) 
王 和 } 

18 . } 


(4) 定义 两 个 函数 : extractKey 函数 用 于 将 传 入 的 每 行 Apache 日 志 记 录 使 用 正则 表达 式 
进行 匹配 ,按照 间隔 的 空格 进行 分 组 ,提取 的 第 一 个 分 组 是 了 PP 地址， 提取 的 第 二 个 分 组 是 用 
户 信 息 ， 提 取 的 第 三 个 分 组 是 查询 URL， 组 合 返 回 三 元 组 (IP 地 址 、 用 户 、 查 询 URL) ; 
extractStats 函数 用 于 将 传 入 的 每 行 Apache 日 志 记 录 使 用 正则 表达 式 进 行 匹配 , 按照 间隔 的 空 
格 进行 分 组 ， 提 取 的 第 7 个 分 组 是 Apache 日 志 中 记录 的 字 节 数 ， 如 果 和 Apache 日 志 记 录 匹 
配 ， 则 计数 为 1， 字 节 数 为 日 志 中 的 字 节 数 ， 如 果 匹 配 不 上 ， 则 计数 为 1， 字 节 数 为 0， 组 合 
返回 Stats 类 (计数 、 字 节 数 ) 。 





1. ”// 提 取 Apache 日 志 中 的 三 元 组 : IP 地址、 用 户 、 查 询 URL 

2. public static Tuple3<String, String, String> extractKey (String line) { 
2. Matcher m = apacheLogRegex.matcher (line); 

入- 下 (md 人 放 

5 String ip = m.group(1); 

6. String user = m.group(3); 

和 后 String query = m.group(5); 

四 二 if (!user.equalsIgnoreCase ("-")) { 

ge return new Tuple3<String, String, String> (ip, user, query); 
10. } 

Ls } 

2% return new Tuple3<String, String, String> (null, null, null); 
3 } 

14. // 提 取 Apache 日 志 中 的 字 节 数 

Ds public static Stats extractStats (String line) { 

2 Matcher m = apacheLogRegex.matcher (line); 

Te if (m.find()) { 

:二 int bytes = Integer.parseInt (m.group (7) ) 

9 return new Stats(1, bytes); 

4 1 } else { 

cr return new Stats(1, 0); 

2 } 

Se } 


(5) 使 用 Spark 上 下 文 的 parallelize 算 子 将 exampleApacheLogs 创建 生成 JavaRDD 
<String> dataSet， 其 每 行内 容 为 Apache 的 日 志 记 录 。 


ls SparkConf sparkConf = new SparkConf() .setAppName ("JavaLogQuery"). 
setMaster ("local [4]"); 





ae 
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JavaSparkContext jsc = new JavaSparkContext (sparkConf); 
3 
4. JavaRDD<String> dataSet = (args.length == 1) ? jsc.textFile 


(args[0]) : jsc.parallelize (exampleApacheLogs); 


(6) 将 dataSet 进行 mapToPair 转换 ， 将 读 入 的 每 行 Apache 日 志 记 录 提 取出 三 元 组 (人 P 
地 址 、 用 户 、 查 询 URL) 及 Stats (计数 、 字 节 数 ) ， 格 式 化 为 Key-Value 值 extracted,，Key 
值 为 三 元 组 (IP 地址 、 用 户 、 查 询 URL) ，Value 值 为 Stats (计数 、 字 节 数 ) 。 

JavaPairRDD<Tuple3<String, String, String>, Stats> extracted = 


dataSet.mapToPair(new PairFunction<String, Tuple3<String， String, 
String>, Stats>() { 


@Override 
3 public Tuple2<Tuple3<String， String, String>, Stats> call 
(String s) { 
4. return new Tuple2<Tuple3<String, String, String>, Stats> 
(extractKey(s), extractstats(s)); 
SE } 
6. 姑且 


(7) 将 extracted 使 用 reduceByKey 算 子 ， 对 于 具有 相同 Key 值 (IP 地 址 、 用 户 、 查 询 
URL) 的 Stats， 则 将 其 Stats 进行 汇总 ， 计 数值 进行 累加 ， 字 节 数 也 进行 累加 。 


: JavaPairRDD<Tuple3<String, String, String>, Stats> counts = 
extracted.reduceByKey (new Function2<Stats, Stats, Stats>() { 

有 @Override 

zk public Stats calll(Stats stats, Stats stats2) { 

二 return stats.merge (stats2); 

5 } 

6. DD); 


(8) 然后 使 用 collect 算 子 收集 全 部 的 输出 结果 ， 循 环 遍历 打印 输出 。 


证 List<Tuple2<Tuple3<String， String， String>， Stats>> output = 
counts .collect() 

六 for (Tuple2<?, ?> 七 : output) { 

< 售 Svsteom ot eprintintt. M(t mT "Nt tt A 

a } 

正则 表达 式 进行 日 志 分 析 的 案例 的 完整 代码 如 下 。 

= package com.noc.ronghezhifu.cores; 

区 号 


3. import com.google.common.collect.Lists; 

4. import scala.Tuple2; 

5. import scala.Tuple3; 

6. import org.apache.spark.SparkConf; 

yh import org.apache.spark.api.java.JavaPairRDD; 

8. import org.apache.spark.api.java.JavaRDD; 

9. import org.apache.spark.api.java.JavaSparkContext; 

10. import org.apache.spark.api.java.function.Function2; 
11. import org.apache.spark.api.java.function.PairFunction; 


13. import java.io.Serializable; 
14. import java.util.Collections; 
15. import java.util.List; 

16. import java.util.regex.Matcher; 
17. import java.util.regex.Pattern; 
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~ /** 
* Executes a roll up-style query against Apache logs. 
* <p> 
* Usage: JavaLogQuery [logFile] 
bl 
. public final class JavaLogQuery { 


public static final List<String> exampleApacheLogs = Lists. 
newArrayList( 
"10.10.10.10 - \"FRED\" [18/Jan/2013:17:56:07 +1100] \"GET http: 
//images. com/2013/Generic.jpg " + 
"HTTP/1.1\" 304 315 \"http://referall.com/\" \"Mozilla/ 
4.0 (compatible; MSIE 7.0; "+ 
"Windows NT 5.1; GTB7.4; .NET CLR 2.0.50727; .NET CLR 
3.0.04506.30; .NET CLR 3.0.04506.648; "+ 
"NET CLR 3.5.21022; .NET CLR 3.0.4506.2152; .NET CLR 
L037097 NET CUR L143227 ,NET CLR 二 
"3.5.30729; Release=ARP)\" \"UD-1\" - \"image/jpeg\" 
Vmhatever\ O0350 N=N\ = WN 265 923 .934 NN 二 
"62.24.11.25 images.com 1358492167 - Whatup", 
“LOLO TOIL0 = NPEREDN [180/Ian/2013317:5607 IIOON NGEP 
http://images.com/2013/Generic.jpg " + 
"HTTP/1.1\" 304 315 \"http://referall.com/\" \"Mozilla/ 
4.0 (compatible; MSIE 7.0; "+ 
"Windows NT 5.1; GTB7.4; .NET CLR 2.0.50727; .NET CLR 
3.0.04506.30; .NET CLR 3.0.04506.648; "+ 
"NET CLRI S5210227 NET CLR 3.0.4500.2152% -NET CLR 
L03705> NET CLR L.A4322; -NET CLR ~ 
"3.5.30729; Release=ARP)\" \"UD-1\" - \"image/jpeg\" 
Vihateverc\® O0350 MY=N = \"N™ 265 923. 934 MY 下 
"62.24.11.25 images.com 1358492167 - Whatup", 
"10.10.10.10 - \"FRED\" [18/Jan/2013:18:02:37 +1100] \"GET 
http://images.com/2013/Generic.jpg " + 
"HTTP/1.1\" 304 306 \"http:/referall.com\" \"Mozilla/ 
4.0 (compatible; MSIE 7.0; Windows NT 5.1; "+ 
"GTB7.4; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET 
CLR 3.0.04506.648; .NET CLR "+ 
D2Z10227 0 MED UCLR 3 0 45006-21527 “NET CER 1.05 
1705 NET CUR TL L43227 NET GLR Yk 
"3.5.30729; Release=ARP)\" \"UD-1\" - \"image/jpeg\" 
"whatever\” (O0352 NN NN 250 0977 038 Vm 
"0 73.23.2.15 images.com 1358492557 - Whatup"); 


public static final Pattern apacheLogRegex = Pattern.compilel( 


CN (NS (NNST) NOU Nm NN Ns MW Iota 
Ne NU (NaN TE Ne COI NT) Ne OW 


public static class Stats implements Serializable { 


private final int count; 
private final int numBytes; 


public Stats (int count, int numBytes) { 


this.count = count; 
this.numBytes = numBytes; 


= 
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} 


public Stats merge (Stats other) { 
return new Stats(count + other.count, numBytes + other.numBytes); 
} 


public String toString() { 
return String.format ("bytes=%s\tn=%s", numBytes, count) 
} 
1 


public static Tuple3<String, String, String> extractKey(String line) { 
Matcher m = apacheLogRegex.matcher (line); 
EMm Elna 
String ip = m.group(1); 
String user = m.group(3); 
String query = m.group(5); 
if (!user-equalsIgnoreCase("-")) { 
return new Tuple3<String，String，String> (ip, user, query); 
} 
return new Tuple3<String, String, String>(null, null, null); 
1 


public static Stats extractStats (String line) { 
Matcher m = apacheLogRegex.matcher (Line) 
if (m.find()) { 
int bytes = Integer.parseInt (m.group(7)); 
return new Stats(1, bytes); 
} else { 
return new Stats(1, 0); 
} 
} 


public static void main(String[] args) { 


SparkConf sparkConf = new SparkConf () .setAppName ("JavaLogQuery"). 
setMaster ("local [4]"); 
JavaSparkContext jsc = new JavaSparkContext (sparkConf); 


JavaRDD<String> dataSet = (args.length == 1) ? jsc.textFile 
(args[0]) : jsc.parallelize (exampleApacheLogs); 


JavaPairRDD<Tuple3<string, String, String>, Stats> extracted 
= dataSet .mapToPair (new PairFunction<Sstring, Tuple3<Sstring, 
String,. String>, Stats>()p 和 
Q@Override 
public Tuple2<Tuple3<String, String, String>, Stats> 
call(Sstring sy) { 
return new Tuple2<Tuple3<String, String, String>, 
Stats> (extractKey(s), extractSstats(s)); 


Ps 


JavaPairRDD<Tuple3<String, String, String>, Stats> counts = 
extracted.reduceByKey (new Function2<Stats, Stats, Stats>() { 
Q@Override 
public Stats calll(Stats stats, Stats stats2) { 
return stats.merge (stats2); 
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114. 1D); 

45> 

6S List<Tuple2<Tuple3<String, String, String>, Stats>> output = 
counts.collect (); 

3 for (Tople2<2，2> t :5 output})y { 

3 Syastom oat printla(tEo LI FF nN\E™ EZ) 

3195 1 

120-。 desEopl)> 

121. } 

122. } 

23 

在 IDEA 中 运行 代码 ， 正 则 表达 式 日 志 分 析 的 输出 结果 如 下 。 

用 Using Spark's default 1og4j profile: org/apache/spark/1og4]j- 


defaults .properties 

2. 17/04/06 21:20:23 INFO SparkContext: Running Spark version 2.1.0 

Ea 

4. 17/04/06 21:20:31 INFO DAGScheduler: Job 0 finished: collect at 
JavaLogQuery.java:116, took 1.432762 s 

5. (10.10.10.10,"FRED",GET http://images.com/2013/Generic.jpg HTTP/1.1) 
bytes=621 n=2 

6. (10.10.10.110,"FRED",GET http://images.com/2013/Generic.jpg HTTP/1.1) 
bytes=315 n=1 

多 


2. Spark 在 通信 运营 商 生产 环境 中 的 应 用 案例 代码 
Spark 在 通信 运营 商 生产 环境 中 的 应 用 案例 正则 规则 集 代 码 如 例 17-1 所 示 。 
【 例 17-1】rhzfLogRegex.scala 代码 。 
3 package com.noc.ronghezhifu.cores 
= 
*Acollection of regexes for Ronghezhifu LOG extracting information from 


* the rhzfline string. 
4. */ 


a 

6. 

7. object rhzfLogRegex { 
8. 

六 尼 


/** 

* Regular expression used for Scene : 

108 * Log analysis:extraction the total time of the RHZF system to UAM 

了 *2017-01-15 17:47:56,242 [ERROR] [MOAuthOperateBusiness.java] : 45 —- 
* 去 UAM 认证 业务 的 时 间 : >>>> Auth >>>> [31]ms 

12 */ 

I val RHZF UAM TIME REGEX = 

Ey, 光 mn"n^(N\S+) (\S+) (\S+) (\S+) : (\S+) -- (\S+) >>>> (\S+) >>>> (\S+)] 
(NST)SP 

0/ 

16. * Regular expression used for Scene : 

EE 砚 纲 * Log analysis:extraction the error code and the error description of 
* the RHZF system received from IT's charging system 

和 * 2017-01-15 17:47:58,430 [DEBUG] [MQQueryInvoiceBusiness.java] : 498 
* -- 流水 号 :372@@8698,queryInvoice response:<soap:Envelope xmlns: 
* soap="http://@@/soap/envelope/"><soap:Body><ns2:queryInvoiceResponse 
* xmlns:ns2="http://@@.sh.cn/"><response><head><errCode>00000001< /errCode> 
* <errDesc>com.@@ .exception.ApplicationException: 账户 不 存在 或 当前 不 是 
* 有 效 状态 


有 
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95 $7 
205 val RHZF MQ QueryInvoice ErrCode REGEX = 
Zs mm NSry NSTI NST NSE 2 (ST) = (VSTNS(NST)e QS NST (NSHY 


(.*) <response><head><errCode> ([0-9]*)</errCode><errDesc> (.*): 
(SA 


人 2 

3 

24. * Regular expression used for Scene : 

人 *1: Log analysis:extraction the MQ check order time of the RHZF system 
* to IT's MO system 

26. * 2017-01-15 17:41:21,654 [ERROR] [MQBillCheckBusiness.java] : 233 
* -- 流水 号 :20170@Q@636 MQ 校 验 订单 业务 的 时 间 : >>>> CheckBill >>>> [554]ms 

1 * 2:Log analysis:extraction the MQ billing payment time of the RHZF 
* system to IT's MQ system 

8. * 2016-12-15 15:14:30,263 [ERROR] [MQBillPaymentBusiness.java] : 182 
* -- 流水 号 :2016Ge@41202 MQ 账单 支付 业务 的 时 间 : >>>> Payment >>>> [423]ms 

9 得 

EE = 

< Val RHZF MQ CHECK ORDER TIME REGEX= 

S28 (NS NS ESE NS) (NS (SNSEN StS>> Ns 
>> (VSHNIOS FS 

33. 

34.。 /es 

5 * Regular expression used for Scene 4: 

0 *Log analysis:extraction the error code and the error description of 
* the RHZF system received from IT's charging system 

RE * 2016-12-15 21:31:52,015 [WARN ] [MQQueryAccountNoBusiness.java] : 


* 278 -- 流水 号 :1008@@27, queryAccountNo response:<soap:Envelope xmlns: 
*soap="http://@@/soap/envelope/"><soap:Body><ns2:queryAccountNo 
*Response xmlns:ns2="http://@@.sh.cn/"><response><head><errCode> 
* 00000001</errCode><errDesc>java.lang.Exception: 设备 号 对 应 帐号 为 空 
二 w/ 
39. val RHZF MQ queryAccountNo ErrCode REGEX = 


40. NSEI NS ENSE (NSE Sm STI NSE he Sr (NS 
(\S+) (.*)<response><head><errCode>([0-9]*)</errCode><errDesc>(.*): 
(oh 

41. 

42. } 

43. 


Spark 在 通信 运营 商 生产 环境 中 的 应 用 案例 Spark 实战 代码 如 例 17-2 所 示 。 
【 例 17-2】rhzfAlipayLogAnalysis.scala 代码 。 


package com.noc.ronghezhifu.cores 


DP 


3 import org.apache.spark.SparkConf 

4. import org.apache.1o0g4j.{Level, Logger} 

5. import org.apache.spark.sql.SparkSession 

6 import org.apache.hadoop.mapred.TextInputFormat 
7 import org.apache.hadoop.io.LongWritable 

8. import org.apache.hadoop.io.Text 

9. import org.apache.spark.rdd.RDD 

10. import rhzfLogRegex._ 

11. import scala.collection.immutable.HashSet 

12. import scala.util.matching.Regex 


14. object rhzfAlipayLogAnalysis { 
全 def main (args: Array[String]): Unit = { 
16 . //Logger.getLogger ("org") .setLevel (Level .ERROR) 
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全 Var masterUr]l = "local[4]" 

LS var dataPath = "G://IMFBigDataSpark2017//IMFSparkAppsnew2017//data// 
ronghezhifualipaylog//10gs20161215//zw out core.1og.2016-12-15" 

19. if (args.length > 0) { 

2 masterUrl = args (0) 

Zi } else if (args.length > 1) { 

2 dataPath = args (1) 

23。 } 

24. val sparkConf = new SparkConf() .setMaster (masterUTr1) .setAppName 
("rhzfAlipayLogAnalysis") 

2 val spark = SparkSession 

2 -builder() 

2 .config(sparkConf) 

Bs -getOrCreate () 

2 val sc = spark.sparkContext 

30. 

六 证 val linesConvertToGbkRDD: RDD[String]l = sc.hadoopFile (dataPath, 
classOf [TextInputFormat], classOf[LongWritable], classOf[Text], 4) 

2 .map(line => { 

23 new String(line. 2.getBytes, 0, line. 2.getLength, "GBK") 

34. 

358 }) 

36. 

Si val linesRegexd: RDD[String] = linesConvertToGbkRDD.map (rhzfline => { 

38 . rhzfline match { 

= 二 case RHZF UAM TIME REGEX(uamLogl, uamLog2, uamLog3, uamLogd, 

uamLog5, uamLog6, uamLog7, uamLog8, uamLog9) 
40. => rhzfline 
41. case RHZF MQ QueryInvoice ErrCode REGEX (mqLogl, mqLog2, mqLog3, 


mqLog4, mqLog5, mqLog6, mqLog7, mqLog8, mqLog9, mqLogl10, mqLogll, 
mqLogl12, mqLogl3, mqLog14) 

42. => rhzfline 

次 case RHZF MO CHECK ORDER TIME REGEX (mqTimeLog]l, mqTimeLog2, 
mqTimeLog3, mqTimeLog4, mqTimeLog5, mqTimeLog6, mqTimeLog7, 
mqTimeLog8, mqTimeLog9, mqTimeLogl10, mqTimeLog11) 

44. => rhzfline 

45. case RHZF MQ queryAccountNo ErrCode REGEX (mqWarnLogl, mqWarnLog2, 
mqWarnLog3, mqWarnLog4, mqWarnLog5, mqWarnLog6, mqWarnLog7, 
mqWarnLog8, mqWarnLog9, mqWarnLogl10, mqWarnLogll, mqWarnLogl12, 
mqWarnLogl3, mqWarnLogl4 ,mqWarnLogl15) 


46. => rhzfline 

EY case => "MatcheIsNull" 

48. } 

49. }) 

50. 

Ss val linedFilterd: RDD[String] = linesRegexd.filter(! .contains 
("MatcheIsNull")) 

D2 

Ss 

as linedFilterd.coalesce (1) .saveAsTextFile("G://IMFBigDataSpark2017 


//ronghezhifuLogAnalysis2017//data//ronghezhifualipaylogresult 
//zw_out core result splunkzw out core 20170207-ok") 

-入 } 

So : 

汪汪 
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17.2 Spark 在 光 宽 用 户 流量 热力 分 布 GIS 系统 中 的 
综合 应 用 案例 


本 节 阐 述 Spark 在 中 国 特大 型 城市 通信 运营 商 光 宽 用 户 流量 热力 分 布 GIS 系统 生产 环境 
中 的 综合 应 用 案例 。 


17.2.1 光 宽 用 户 流量 热力 分 布 GIS 系统 案例 需求 分 析 





目前 ， 在 中 国 特大 型 城市 已 发 展 几 百 万 光 宽 用 户 ， 根 据 专业 网 管 采集 全 网 儿 十 万 无 源 光 
纤 网 络 设备 端口 PON 口 的 流量 数据 ， 其 中 几 十 万 PON 口 发 生 用 户 流量 ， 出 向 峰值 流量 最 高 
的 PON 口 达 几 百 兆 位 每 秒 ， 按 普遍 情况 下 1:64 分 光 ， 每 个 PON 口 下 64 家 光 宽 用 户 ; 基于 
PON 口 可 以 预测 64 家 用 户 区 域 的 上 网 流量 分 布 情况 ; 若 以 PON 口 出 向 峰值 100Mb/s 流量 为 
颗粒 度 标 签 颜色 ， 使 用 不 同 颜色 区 分 流量 高 低 情况 。 

中 国 特大 型 城市 通信 运营 商 具备 特大 城市 通信 网 络 大 屏幕 监控 系统 ，7X24 监控 整个 城 
市 的 通信 网 络 运行 情况 ， 需 要 监控 光 宽 用 户 流量 热力 分 布 的 情况 。 根 据 光 宽 用 户 编号 与 PON 
口 资源 数据 的 映射 关系 ， 即 可 对 PON 口 下 具体 64 家 用 户 编号 按 上 述 流 量 高 低 标签 颜色 ， 再 
根据 用 户 编号 与 GPS 坐标 的 映射 关系 在 城市 地 图 上 展现 光 宽 用 户 流量 热力 分 布 , 由 此 可 洞察 
哪些 区 域 存在 高 流量 使 用 情况 ， 即 挖潜 存在 发 展 高 带宽 产品 商机 的 区 域 ， 同时， 也 可 进一步 
根据 PON 口 流量 设 定 预警 门限 ， 如 出 向 峰值 超过 1000Mb/s 的 PON 口 ， 挖 掘 其 下 用 户 分 布 
情况 ， 能 直接 在 地 图 上 展现 AD 编号 位 置信 息 ， 以 便 与 用 户 申告 投诉 上 网 拥塞 等 潜在 风险 关 
联 分 析 。 

Spark 分 布 式 集群 计算 框架 在 通信 运营 商 光 宽 用 户 流量 热力 分 布 GIS 系统 案例 中 处 于 核 
心计 算 的 位 置 , 将 数据 源 从 Hadoop 分 布 式 文件 系统 中 进行 关联 计算 处 理 , 经 过 Spark 计算 转 
换 以 后 在 Oracle 数据 库 中 持久 化 入 库 ， 提供 给 第 三 方 地 图 GIS 系统 进行 大 屏幕 展示 ， 取 得 了 
很 好 的 成 果 。 


17.2.2 ” 光 宽 用 户 流量 热力 分 布 GIS 应 用 的 数据 说 明 








光 宽 用 户 流量 热力 分 布 GIS 应 用 数据 来 源 包括 : 

口 PON 口 的 流量 数据 。 

口 光 网 络 设备 的 经 纬度 位 置信 息 。 

特大 型 城市 通信 运营 商 从 现 网 运行 网 络 设备 上 采集 无 源 光纤 网 络 设备 端口 PON 口 的 流 
量 数据 ， 数 据 格式 包括 端口 类 型 、 区 局 名 称 、 设 备 端口 编号 、 采 集 时间 、 入 向 峰值 、 入 向 平 
均值 、 出 向 峰值 、 出 向 平均 值 。PON 口 的 流量 数据 经 通信 运营 商 网 管 系统 每 天 采集 以 后 ， 上 
传 至 大 数据 平台 Hadoop 系统 。 

PON 口 的 流量 数据 的 格式 描述 如 下 。 
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OoAAODNDPpPp 


端口 类 型 PonPort 

区 局 区 局 名 称 

OLT 名 称 分 局 T1/ZTEC300-OLT04 

PON 口 编号 epon 1/2/4 

采集 时 间 201701071458- 2.01604E+11 
入 向 峰值 6.17308 

入 向 平均 值 ”4.3376384 

出 向 峰值 15.217123 

出 向 平均 值 。 5.3401234 


登录 HDFS 文件 系统 查看 PON 口 的 流量 数据 文件 。 


Ls 


[hdfs@masterl root]$ hdfs dfs -ls hdfs:///bigdata/Olt*/ |more 
Java HotSpot (TM) 64-Bit Server VM warning: Insufficient space for shared 
memory file: 
30246 
Try using the -Djava.io.tmpdir= option to select an alternate temp 
location. 


Found 73 items 


-TWEE=E 3 hdfs hdfs 08 2016=T2=16° T1036 
hdfs:///big*/Olt*/Olt* 20161216 221005 .txt 
a 3 hdfs hdfs 608 2016=12=20) "T0023 
hdfs:///big*/Olt*/Olt* 20161220 221005.txt 
= 3 hdfs hdfs 648 2016-12-23 20:36 


hdfs:///big*/Olt*/Olt* 20161223 221005.txt 


So a hrs Dds 32604216 2016-12-26 13:01 


hdfs:///big*/Olt*/Olt* 20161225 221005.txt 


Ee 3 hats | hdfs 32607740 2016-12-28 53 
hdfs:///big*/Olt*/Olt* 20161227 221004.txt 


在 HDFS 文件 系统 中 查看 PON 口 的 流量 数据 内 容 。 


FE 


权 


3 
4. 


5 
Gs 


Es 


[hdfsemasterl root]$ hdfs dfs -cat hdfs:///big*/Olt*/Olt* 20170130.txt 
| more 
Java HotSpot (TM) 64-Bit Server VM warning: Insufficient space for shared 
memory file: 
29901 
Try using the -Djava.io.tmpdir= option to select an alternate temp 
location. 


PonPort， 宝山， 宝山 宾馆 北 楼 R1/HW5680T-0LT01, EPON 0/1/5, 
201701302058-201703302210，0，0，0.22320748，0.063800128 


从 PON 口 的 流量 数据 摘 取 部 分 记录 如 下 〈 样 本 供 读者 了 解 以 下 数据 字段 的 格式 ， 原 始 
记录 数据 已 修改 ) : 


Ys 


2 


PonPort， 宝山， 宝山 宾馆 北 楼 T1/HW5680T-OLT01, EPON 0/1/0, 
201701302058-201701302210，0，0，0.42321234，0.063600122 

PonPort， 宝山， 宝山 宾馆 北 楼 T1/HW5680T-OLT01, EPON 0/1/1, 
201701302058-201701302210，0，0，0.42321234，0.063600122 

PonPort， 宝山， 宝山 宾馆 北 楼 T1/HW5680T-OLT01, EPON 0/1/2， 
201701302058-201701302210，0，0，0.25320722，0.063600128 

PonPort， 宝山， 宝山 宾馆 北 楼 T1/HW5680T-OLT01, EPON 0/1/4, 
201701302058-201701302210, 0.22133228, 0.099186062, 0.46746829, 
0.265229958 
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5. PonPort， 宝山 ， 宝 山 宾 馆 北 楼 T1/HW5680T-OLT01, EPON 0/1/3， 
201701302058-201701302210, 0.21802262, 0.167416384, 8.96763648, 
8.544179202 

6. PonPort， 宝山 ， 宝 山 宾 馆 北 楼 TI/HW5680T-OLT01， EPON 0/1/3, 
201701302058-201701302210, 0.8519842, 0.4448745, 3.82706225, 2.286044314 

光 网 络 设备 的 位 置信 息 : 

特大 型 城市 通信 运营 商 从 现 网 运行 网 络 设备 上 入 库 记 录 光 网 络 设备 的 位 置信 息 ， 数 据 格 

式 包括 光 网 络 设备 端口 信息 、 设 备 位 置 经 纬度 。 光 网 络 设备 的 位 置信 息 存 放 在 特大 型 城市 通 
信和 运营 商 大 数据 平台 的 Hive 中 。 

查看 Hive 中 表 OLTPORT _ LOCATION 的 信息 。 


1 hive> desc OLTPORT LOCATION; 

2 .4 

3 olt porkt string 

4. ad location string 

5 Time taken: 0.989 seconds, Fetched: 2 row(s) 
6. hive> 


光 网 络 设备 的 位 置信 息 的 格式 描述 如 下 。 


1. olt 端口 信息 
2. olt 位 置 经 纬度 。 按 : 分 隔 


从 光 网 络 设备 摘 取 部 分 记录 如 下 《样本 供 读者 了 解 以 下 数据 字段 的 格式 ， 原 始 记 录 数 据 
已 修改 ) 。 


崇明 港 沿 T1/ZTEC500-OLT04103107 124.670679:31.591234 
南汇 惠 南 D1/ZTEC220-OLT01105104 124.750808:31.041234 
松江 方 塔 T1/ZTEC600-OLT11102107 124.243126:31.002079 
奉贤 肖 塘 D1/HW5680T-OLT07101103 122.458160:30.971234 
黄 兴 21/ZTEC220-OLT05101104 121.430594:41.801234 
长 宁 T1/HW5680T-OLT04108102 121.426483:31.225152 
海宁 T2/HW5680T-OLT3803100 124.455410:31.258940 
江苏 T2/HW5680T-OLT11103102 122.442038:31.222126 


oooODp 


17.2.3” 光 宽 用 户 流量 热力 分 布 GIS 应 用 Spark 实战 


本 节 进 行 光 宽 用 户 流量 热力 分 布 GIS 应 用 Spark 实战 .使 用 Spark 对 PON 口 的 流量 数据 、 
光 网 络 设备 经 纬度 位 置信 息 进行 关联 ， 并 将 结果 持久 化 到 Oracle 数据 库 。 

具体 实现 步骤 如 下 : 

(1) 使 用 StructType 方式 把 PON 口 的 流量 数据 格式 化 ， 即 在 RDD 的 基础 上 增加 PON 
口 的 流量 数据 的 元 数据 信息 。 格 式 化 的 时 候 区 分 一 下 数据 类 型 ， 入 向 流量 、 入 向 流量 均值 、 
出 向 流量 、 出 向 流量 均值 4 个 字段 的 类 型 是 DoubleType; OLT 端口 、 开 始 时 间 、 结 束 时 间 3 
个 字段 的 类 型 是 StringType， 创 建生 成 StructType 类 型 的 structType_ponData。 

(2) 从 特大 型 城市 通信 运营 商 大 数据 平台 Hadoop 分 布 式 文件 系统 中 读 入 PON 口 的 流量 
数据 进行 Row 行 数据 格式 化 。PON 口 流 量 数据 的 每 行 数据 包括 端口 类 型 、 区 局 名 称 、 设 备 
端口 编号 、 采 集 时 间 、 入 向 峰值 、 入 向 平均 值 、 出 向 峰值 、 出 向 平均 值 。 
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口 例如 ， 某 行 数 据 “PonPort, 宝山 , 宝山 宾馆 北 楼 RHW5680T-OLT01, EPON 0/1/3, 
201702302058-201702302210. 0.42133228, 0.099181234. 0.16746829, 0.265229958”。 
对 读 入 的 每 行 数据 按 "," 分 隔 符 进行 分 割 ， 生 成 变量 array。 

口 获取 端口 值 : array 第 三 个 元 素 是 端口 信息 ， 如 EPON 0/13， 再 按 "/" 进 行 分 割 ， 取 出 
具体 的 端口 值 ， 端 口 第 0 个 值 是 0， 端口 第 1 个 值 是 1， 端 口 第 2 个 值 是 3。 然 后 将 
第 二 个 元 素 , 如 “宝山 宾馆 北 楼 R1/HW5680T-OLT01”+"|0" 和 第 1 个 端口 值 1+"|0"+ 
第 二 个 端口 值 3 组 拼 成 oltPortTemp ， 除 掉 空 格 ， 即 “宝山 宾馆 北 楼 
RI1/HW5680T-OLTO1|01|03”。 

口 获取 开始 时 间 : array 第 四 个 元 素 ， 如 201702302058-201702302210， 按 “-” 分 割 以 
后 取 到 第 0 个 值 ， 即 开始 时 间 201702302058。 

口 获取 结束 时 间 : array 第 四 个 元 素 ， 如 201702302058-201702302210， 按 “-” 分 割 以 
后 取 到 第 1 个 值 ， 即 结束 时 间 201702302210。 

经 过 上 述 格式 处 理 ， 最 终 把 PON 口 的 流量 数据 的 每 条 数据 变 成 以 Row 为 单位 的 数据 ， 
Row 每 行 中 的 数据 格式 为 Row (olt 端口 、 开 始 时 间 、 结 束 时 间 、 入 向 峰值 、 入 向 平均 值 、 
出 向 峰值 、 出 向 平均 值 ), 创建 生成 RDD[Row] 格 式 的 ponData rdd。 其 中 , 每 行 数据 ， 如 〈 宝 
山 宾馆 北 楼 RWHW5680T-OLT01|01|03 ， 201702302058 ， 201702302210 ， 0.42133228， 
0.099181234, 0.16746829, 0.265229958) 

(3) 创建 df ponData DataFrame: 结合 ponData rdd 和 structType_ponData StructType 的 
元 数据 信息 ， 基 于 RDD 创建 DataFrame， 这 时 RDD 就 有 了 元 数据 信息 的 描述 。 

通过 DataFrame 的 方式 实现 PON 口 的 流量 数据 分 析 ， 代 码 如 下 。 


Ee val schemaString2 = "OLTPORT2,FirstTime,LastTime,I Mbps,IA Mbps, 
O Mbps,OA Mbps" 








2 var fields2: Seq[StructField] = List[StructField] () 

< 人 for (columnName <- schemaString2.split(",")) { 

4. // 分 别 规定 String 和 Double 类 型 

3 if (columnName == "I Mbps" || columnName == "IA Mbps" || columnName 

== "0O Mbps" || columnName == "OA Mbps") 

6 fields2 = fields2 :+ StructField(columnName, DoubleType, true) 

Js else 

S<= fields2 = fields2 :+ StructField(columnName, StringType, true) 

9. } 

生息 二 val structType ponData = StructType.apply (fields2) 

了 

开 25 // 结 合 数据 给 出 要 处 理 的 时 间 格 式 为 yyyyMMad 

JE val fileName = "hdfs:///bigdata/OltPonPort/OltPonPort FlowData " + 
args(0) + “*™ 

人 var ponData = spark.read.textFile (fileName) .rdd 

De 

TGR // 找 出 相关 格式 ， 进 行 关联 

Lh val ponData rdd = ponData.map(x => { 

18 . val array = x.split(",") 

I val port = array(3) .split("/") 

2 

2 // 使 用 replace 方法 去 掉 空 格 

这 val oltportTemp = array(2) FT "TO + port(i) TF "0m port(2) 

之 3 Val oltPort = oltPortTemp .replace(" ", "") 

24 val firstTime = array(4) .split("-—") (0) .replace(™ ", "") 

25> val lastTime = array(4) .split("—") (1) 
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2 

Te Row(oltPort, firstTime, lastTime, array(5) .toDouble, array(6) . 
toDouble, array(7) .toDouble, array(8) .toDouble) 

28: 

本 }) 

30 . 

31 var df ponData: DataFrame = spark.createDataFrame (PonData rdd, 


structType ponData) 


(4) Spark 从 大 数据 平台 Hive 中 读 取 光 网 络 设备 位 置 表 OLTPORT_LOCATION, 创建 生 
成 DataFrame 类 型 的 df gisData。df_ gisData 的 每 行 数据 包括 光 网 络 设备 端口 、 设 备 经 纬度 位 
置信 息 (olt_port、ad location) 。 

将 PON 口 的 流量 数据 的 DataFrame df ponData 和 光 网 络 设备 经 纬度 位 置 DataFrame 
df_gisData 根据 设备 端口 号 进行 关联 Join， 去 除 重复 的 端口 刚 ， 计 算出 的 格式 为 olt 端口 数 
据 、 开 始 时 间 、 结 束 时 间 、 入 向 峰值 、 入 向 平均 值 、 出 向 峰值 、 出 向 平均 值 ， 经 纬度 位 置 )， 
最 终 创建 生成 关联 以 后 的 结果 result: DataFrame。 

PON 口 的 流量 数据 及 光 网 络 设备 经 纬度 位 置 关联 代码 如 下 。 

// 在 此 读 Hive， 读 取 相 关 的 表 ， 进 行 定期 操作 

val df gisData = spark.sql ("SELECT * FROM OLTPORT LOCATION") 
// 进 行 关 联 

val result = df ponData.join(df gisData, df ponData.col ("OLTPORT2") 
=== df gisData.col ("olt port")) .drop("OLTPORT2") 

-下 result.show(20) 

后 = val printRdd = result.rdd.map(x => { 

7 

8 


Var result = x.apply (0) 
for (i <- 1 to x.length - 1) { 


9 result = result + "," + x.apply (i) 
10% } 

LE result 

了 2 }) 


(5) 将 PON 口 的 流量 数据 及 光 网 络 设备 经 纬度 位 置 关联 的 结果 (olt 端口 数据 、 开 始 时 
间 、 结 束 时 间 、 入 向 峰值 、 入 向 平均 值 、 出 向 峰值 、 出 向 平均 值 ， 经 纬度 位 置 ) 持久 化 保存 
至 Oracle 数据 库 。 关 联 的 结果 result: DataFrame 使 用 foreachPartition 算 子 按 分 区 进行 转换 。 
首先 加 载 Oracle 驱动 引擎 建立 与 Oracle 数据 库 的 连接 。 
接 下 来 对 读 取 的 每 行 关 联 后 的 行 数据 Row: 
口 计算 经 纬度 数据 : 获取 ad_location 字段 ， 按 “:” 进 行 切 分 ， 其 第 0 个 数据 是 经 度数 
据 jd， 第 1 个 数据 是 纬度 数据 wd。 然 后 经 过 转换 ， 计 算出 转换 后 的 经 度 jdl1、 纬 度 
wdl。 


口 获取 当前 时 间 : DRRQ。 

口 获取 开始 时 间 : YWRQ。PON 口 的 流量 数据 中 记录 的 开始 时 间 。 

口 获取 光 网 络 设备 OLTPORT 的 分 隔 符 “/” 切 分 的 第 一 个 名 称 ， 如 “宝山 宾馆 北 楼 
RLIHW5680T-OLT01I01I03” 按 分 隔 符 “/” 切 分 以 后 ， 其 第 0 个 元 素 是 宝山 宾馆 北 楼 
RL 

口 依次 获取 开始 时 间 、 结 束 时 间 、 入 向 峰值 、 入 向 平均 值 、 出 向 峰值 、 出 向 平均 值 等 
字段 数据 。 


最 后 批量 将 上 述 数据 插入 到 Oracle 数据 库 表 DX_LLXXB 中 ， 插 入 的 字段 包括 序号 、 开 
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始 时间 、 结 束 时 间 、 入 向 峰值 、 入 向 平均 值 、 出 向 峰值 、 出 向 平均 值 、olt 光 网 设备 端口 号 、 
经 纬度 位 置 、 经 度 、 纬 度 、 当 前 时 间 、 开 始 时 间 、 转 换 后 的 经 度 、 转 换 后 的 纬度 等 数据 。 
PON 口 的 流量 数据 及 光 网 络 设备 经 纬度 位 置 关联 结果 入 库 Oracle 的 代码 如 下 。 


1 
| 
4 
号 
Gs 
7 
3 
I 
10 


i 
本 


二 3 
14. 








// 再 次 清洗 ， 给 出 JD WD 
Lesult.foreachPartition (partition => { 


// 分 区 域 进行 数据 库 链接 ， 减 少 连接 池 的 压力 

val url = "jdbc:oracle:thin:@10.*.*.*:1521:0ORCL" 
Val user = "##" 

Val password = "**" 

Var conn: Connection = null 

Var ps: PreparedStatement = null 


// 插 入 数据 库 语句 

val sql = "insert into ogg.DX LLXXB (xh,firsttime,lasttime, i mbps, 
ia mbps,o mbps,oa mbps,oltport,olmc,1 local,jd,wd,drrq,ywrq,jdl, 
Wowaluos(SEOITRD nextyale 2 2 2 Dr 琶 大生 全 二 有 二 生 站 
Class.forName ("oracle.jdbc.driver.OracleDriver") .newInstance () 


try { 


// 给 出 链接 

conn = DriverManager.getConnection (url, user, password) 
conn.setAutoCommit (false) 

// 拼 接 SQL 


ps = conn.prepareStatement (sql) 


// 每 个 分 区 内 部 批 处 理 


partition.toList.foreach(x => { 


// 给 出 经 纬度 计算 
val jd = x.getAs[String] ("ad location") .split(":") (0) 
val wd = x.getAs[String] ("ad location") .split(":") (1) 


// 转 换 后 的 经 纬度 

val jdl = jd.toDouble * 20037508.34 / 180 

var wdl = math.log (Math.tan((90 + wd.toDouble) * math.Pi / 360)) 
/ (math.Pi/180) 

wdl = wdl * 20037508.34 / 180 


// 当 前 的 时 间 

// 给 出 当前 时 间 

Var now = new Date () 

val sdf new SimpleDateFormat ("yyyy-MM-dd HH:mm:ss") 
val DRRO sdf.format (now) 

val YWRQ x.getAs[String] ("FirstTime") 


ei 


// 对 SQL 进行 赋值 

ps.setstring(1, x.getAs[String] ("FirstTime")) 
ps.setstring(2, x.getAs[String] ("LastTime")) 
ps.setDouble(3, x.getAs[Double] ("I Mbps")) 
ps.setDouble(4, x.getAs[Double] ("IA Mbps")) 
ps.setDouble(5, x.getAs[Double] ("O Mbps")) 
ps.setDouble(6, x.getAs[Double] ("OA Mbps")) 
ps.setstring(7, x.getAs[String] ("olt port")) 
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5 // 获 取 OLT 的 名 称 

52> ps.setstring(8, x.getAs[String] ("olt port") .split("/") (0)) 
S53 

54. ps.setstring(9, x.getAs[String] ("ad location")) 
Se ps.setstring(10, jd) 

See ps.setstring(11, wd) 

Se ps.setstring(12, DRRO) 

与 和 二 ps.setstring(13, YWRQO) 

5 

60. // 进 行 格式 的 规范 化 ， 保 留 7 位 小 数 

和 val df = new DecimalFormat ("#.0000000") 
625 

63. ps.setstring(14, df.format (jd1)) 

64. ps.setstring(15, df.format (wd1)) 

555 

66. // 进 行 批 处 理 

67: ps.addBatch () 

68. }) 

695 

70. // 进 行 批 处 理 

ts ps.executeBatch() 

了 有 2 conn.commit () 

3 } // 结 束 尝试 

六 catch { 

全 case e: Exception => e.printStackTrace 
76; » 

Ps 

78: finally { 

79. // 关 闭 两 个 管道 

80 . if (ps != null) { 

81s ps.close() 

82. T 

83. 

84. if (conn != null) { 

85- conn.close() 

86. L 

87. } 

88. 

89. 

90- }) 


17.2.4” 光 宽 用 户 流量 热力 分 布 GIS 应 用 Spark 实战 成 果 


在 通信 运营 商 大 数据 平台 生产 环境 中 运行 Spark 代码 , Spark 运行 完成 以 后 , 登录 到 Oracle 
数据 库 ， 检 查 数据 库 表 DX_LLXXB， 数 据 字 段 格式 为 序号 、 开 始 时 间 、 结 束 时 间 、 入 向 峰 
值 、 入 向 平均 值 、 出 向 峰值 、 出 向 平均 值 、olt 光 网 设备 端口 号 、 经 纬度 位 置 、 经 度 、 纬 度 、 
当前 时 间 、 开 始 时间 、 转 换 后 的 经 度 、 转 换 后 的 纬度 ， 从 数据 库 表 中 可 以 查询 到 数据 ， 验 证 
测试 成 功 。 (原始 记录 数据 已 修改 ) 

1. 37 201611302058 201611302210 2.98793000 1.875177838 65.75281337 
49.3881015540 ”中 原 T1/HW5680T-OLT30101108 中 原 D1122.530336:33.334756 
122.530336 33.334756 2016-12-07 22:21:10 201611302058 
13528695.1175722 3676300.31930068 


2. 38 201611302058 201611302210 10.50303314 6.5187775380 
47.80156946 35.46381150 中 原 T1/HW5680T-OLT33102102 中 原 D1122.536467: 
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基于 Spark 将 PON 口 的 流量 数据 及 光 网 络 设备 经 纬度 位 置 关联 的 结果 , 中 国 特大 型 城 


31.329279” ‘122.536467 31.329279 "2016=12=07 22:21:10'201611302058 
13529377.6173702 3675586.52921234 





wsdl 


通信 运营 商 可 在 GIS 地 图 监控 系统 中 成 功 地 监控 到 用 户 流量 热力 分 布 信息 。 


17,2:5 


光 宽 


光 宽 用 户 流量 热力 分 布 GIS 应 用 Spark 案例 代码 


用 户 流量 热力 分 布 GIS 应 用 案例 如 例 17-3 所 示 。 


【 例 17-3】GisDataMap.scala 代码 。 


: 属 


cam 必 wN 


ei 
Es 
二 2 
3 
14. 
了 SS 
16. 
了 
18 . 
19e 
1 启 


2 
2 
人 
2 


Ds 
26. 
外 
28: 
二 
30> 
Se 
i 


EE 攻 窜 
34. 
35: 
365 
号 7 
38 
39- 
40. 
41. 
42. 


package NOCGis.GisData.src.main.scala.Noc 


import java.sql.{Connection, DriverManager, PreparedStatement} 
import java.text.{DecimalFormat, SimpleDateFormat} 

import java.util.{Calendar, Date} 

import org.apache.spark.sql.{Row, SQLContext, SparkSession} 
import org.apache.spark.sql.types. 


import org.apache.spark.sql.types.{StringType, StructField, StructType} 
object GisDataMap { 


def main(args: Array[String]) { 
val warehouslocation = "/spark-warehouse" 
val spark = SparkSession 
.builder.appName ("GisDataMap") 


.enableHiveSupport () 
.config("spark.sql.warehouse.dir", warehouslocation) 
.getOrCreate () 

val schemaString2 = "OLTPORT2,FirstTime,LastTime,I Mbps,IA Mbps, 


O Mbps,OA Mbps" 
var fields2: Seq[StructField] = List[StructField] () 
for (columnName <- schemaString2.split(",")) { 
// 分 别 规定 String 和 Double 类 型 
if (columnName == "I Mbps" || columnName == "IA Mbps" || columnName 
== "O Mbps" || columnName == "OA Mbps") 
fields2 fields2 :+ StructField(columnName, DoubleType, true) 
else 
fields2 


fields2 :+ StructField(columnName, StringType, true) 
1 
val structType ponData = StructType.apply (fields2) 


// 结 合 数据 给 出 要 处 理 的 时 间 ， 格 式 为 yyyyMMad 

val fileName = "hdfs:///bigdata/OltPonPort/OltPonPort FlowData " + 
args(0) + "*" 

var ponData = spark.read.textFile (fileName) .rdd 


// 找 出 相关 格式 ， 进 行 关联 

val ponData rdd = ponData.map(x => { 
Val array = XSpLit(™",®) 
val port = array(3) .split("/") 


// 使 用 replace 方法 去 掉 空 格 


Val oltPortTemp = array(2) + "|0" + port(1) + "|0" + port(2) 
Val oltPort = oltPortTemp.replace(™" ", "") 
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43 . 
44. 
45. 
46. 


47. 
48 . 
49 . 
50 . 
与 正二 
SZ 
535 
54. 
5 
565 
S73 


S83. 
SOE 
60. 
61: 
62. 
63. 
64. 
65- 
66 . 
| - 弟 打 
68 . 
三 3 
TO 
TE 
2 
3 
74. 
大 条 
36 
1 
28 
9 
80 . 
Bs 
2 


As 
84. 
95S< 
86 . 
7 
88. 
89< 
90. 
3. 
人 2 
93- 
94. 
QD 
EL 


a 


val firstTime = array(4) .split("-—") (0) .replace(™ ", "") 
val lastTime = array(4) .split("-—") (1) 


Row (oltPort， firstTime, lastTime, array(5) .toDouble, array(6) . 
toDouble，array(7) -toDouble，array(8) .toDouble) 


7) 


var df ponData = spark.createDataFrame (ponData rdd, structType ponData) 


// 在 此 读 Hive， 读 取 相关 的 表 ， 进 行 定期 操作 
val df gisData = spark.sql("SELECT * FROM OLTPORT LOCATION") 


// 进 行 关联 
val result = df ponData.join(df gisData, df ponData.col ("OLTPORT2") 
=== df gisData.col("olt port")).drop("OLTPORT2") 


result.show(20) 
val printRdd = result.rdd.map(x => { 


Var result = x.apply (0) 

for (i <- 1 to x.length - 1) { 
result = result + "," + x.apply (i) 

3 

result 


}) 


// 针 对 以 上 情况 进行 处 理 
// 青 次 清洗 ， 给 出 JD WD 


result.foreachPartition (partition => { 


// 分 区 域 进行 数据 库 链接 ， 减 少 连接 池 的 压力 

val url = "jdbc:oracle:thin:@10.100.100.109:1521:0RCL" 
Val user = "ogg" 

Val password = "ogg" 

Var conn: Connection = null 

Var ps: PreparedStatement = null 


// 插 入 数据 库 语句 

val sql = "insert into ogg.DX LLXXB (xh, firsttime,1lasttime,i mbps, 
ia mbps,o mbps,oa mbps,oltport,olmc,1 local,jd,wd,drrq,ywrq,jdl, 
VA vaLues (SEO DIULe nomeval Dr or a 
Class.forName ("oracle.jdbc.driver.OracleDriver") .newInstance () 


try { 


// 给 出 链接 

conn = DriverManager.getConnection(url, user, password) 
conn.setAutoCommit (false) 

// 拼 接 SQL 


ps = conn.prepareStatement (sql) 


// 每 个 分 区 内 部 批 处 理 
partition.toList.foreach(x => { 
// 给 出 经 纬度 计算 
valid = x getAs [string)lad location) split (ei(oN 
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val wd = x.getAs[String] ("ad location") .split(":") (1) 


// 转 换 后 的 经 纬度 


val jdl = jd.toDouble * 20037508.34 / 180 
Var wdl = math.log (Math.tan((90 + wd.toDouble) * math.Pi / 360)) 


/ (math.Pi/180) 


wdl = wdl * 20037508.34 / 180 


// 当 前 的 时 间 
// 给 出 当前 时 间 


Var now = new Date () 


val sdf = new SimpleDateFormat ("yyyy-MM-dd HH:mm:ss") 
sdf.format (now) 
x.getAs[String] ("FirstTime") 


val DRRQ 
val YWRQ 


// 对 SQL 进行 赋值 
ps.setstring(1, 
ps.setstring (2, 
ps.setDouble (3, 
ps.setDouble(4, 
ps.setDouble(5, 
ps.setDouble(6, 
ps.setstring(7, 


// 获 取 OLT 的 名 称 
ps .setString(8， 


ps.setSstring(9, x.getAs[String] ("ad location")) 
ps.setstring(10, 
ps.setstring(11, 
ps.setstring(12, 
ps.setstring(13, 


// 进 行 格式 的 规范 化 ， 


xxxXxxXxx 


X. 


.getAs[String] ("FirstTime")) 
.getAs[String] ("LastTime")) 
.getAs [Double] ("I Mbps")) 
-getAs [Double] ("IA Mbps")) 
.getAs [Double] ("0O Mbps")) 
-getAs[Double] ("OA Mbps")) 
.getAs[String] ("olt port")) 


jd) 
wd) 
DRRO) 
YWRO) 


保留 7 位 小 数 


val df = new DecimalFormat ("#.0000000") 


ps.setstring(14, df.format (jd1)) 
ps.setstring(15, df.format (wdl)) 


// 进 行 批 处 理 
ps.addBatch () 
| 


// 进 行 批 处 理 


Ps .executeBatch () 


conn.commit () 
】 // 结 束 尝试 
catch { 


case e: Exception => e.printSstackTrace 


i 


finally { 
// 关 闭 两 个 管道 
if (ps != null) 
ps.close() 


} 


{ 


if (conn != null) { 


getAs[String] ("olt port") .split("/") (0)) 


RT 
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了 54 conn-close () 


17.3 本 章 总 结 


7 


章 详细 阐述 了 Spark 在 通信 运营 商 生产 环 境 中 的 两 个 应 用 案例 ， 第 一 个 案例 是 Spark 
在 通信 运营 商 融 合 支付 系统 日 志 统计 分 析 中 的 综合 应 用 ;第 二 个 案例 是 Spark 在 光 宽 用 户 流 
量 热力 分 布 GIS 系统 中 的 综合 应 用 。 在 通信 运营 商 生 产 环 境 中 ，Spark 的 作用 在 于 对 业务 系 
统 提出 的 需求 ， 运 用 Spark 大 数据 技术 结合 生产 实际 需求 开发 ， 实 现 了 业务 需求 的 各 个 
功能 。 





we 


第 18 章 使 用 Spark GraphX 实现 婚恋 社交 
网 络 多 维度 分 析 案 例 


图 计算 广泛 应 用 于 社交 网 络 、 电 子 商务 ， 地 图 等 领域 。Spark GraphX 是 图 计算 领域 的 屠 
龙 宝刀 ， 对 Pregel API 的 支持 更 是 让 Spark GraphX 如 虎 添 翼 。Spark GraphX 可 以 轻而易举 地 
完成 基于 度 分 布 的 中 枢 节 点 发 现 、 基 于 最 大 连通 图 的 社区 发 现 、 基 于 三 角形 计数 的 关系 衡 
量 、 基 于 随机 游 走 的 用 户 属性 传播 等 。 得 益 于 Spark 的 RDD 抽象 ，Spark GraphX 可 以 无 终 地 
与 Spark SQL、MLLib 等 结合 使 用 .例如 ,可 以 使 用 Spark SQL 进行 数据 的 ETL 之 后 交 给 Spark 
GraphX 进行 处 理 ， 而 Spark GraphX 在 计算 的 时 候 又 可 以 和 MLLib 结合 使 用 , 来 共同 完成 深 
度数 据 挖掘 等 人 工 智能 化 的 操作 ， 这 些 特 性 都 是 其 他 图 计算 平台 无 法 比拟 的 。 

在 淘宝 ，Spark GraphX 不 仅 广泛 应 用 于 用 户 网 络 的 社区 发 现 、 用 户 影响 力 、 能 量 传播 、 
标签 传播 等 ， 而 且 也 越 来 越 多 地 应 用 到 推荐 领域 的 标签 推理 、 人 和 群 划分 、 年 龄 段 预测 、 商 品 
交易 时 序 跳 转 等 。 从 技术 层面 讲 ，Spark GraphX 非常 适合 于 微 信 、 微 博 、 社 交 网 络 、 电 子 商 
务 、 地 图 导航 等 类 型 的 产品 ， 所 以 可 以 期 待 Spark GraphX 在 Facebook、Twitter、Linkedin、 
腾讯 、 百 度 等 的 大 规模 应 用 。 





18.1 Spark GraphX 发 展演 变 历史 和 在 业界 的 使 用 案例 


Spark GraphX 是 一 个 分 布 式 图 处 理 框架 ， 基 于 Spark 平台 提供 对 图 计算 和 图 挖掘 简洁 易 
用 而 丰富 多 彩 的 接口 ， 极 大 地 方便 了 分 布 式 图 处 理 的 需求 。 

社交 网 络 中 人 与 人 之 间 有 很 多 关系 链 ， 如 Twitter、Facebook、 微 博 、 微 信 ， 这 些 都 是 大 
数据 产生 的 地 方 ， 都 需要 图 计算 。 现 在 的 图 处 理 基本 都 是 分 布 式 的 图 处 理 ， 而 并 非 单 机 处 理 。 
Spark GraphX 由 于 底层 是 基于 Spark 处 理 的 ， 所 以 天 然 就 是 一 个 分 布 式 的 图 处 理 系统 。 

图 的 分 布 式 或 者 并 行 处 理 其 实 是 把 这 张 图 拆 分 成 很 多 的 子 图 ， 然 后 分 别 对 这 些 子 图 进 
行 计算 ， 计算 时 可 以 分 别 迭 代 进 行 分 阶段 的 计算 ， 即 对 图 进行 并 行 计算 。 

下 面 看 一 下 图 计算 的 简单 示例 ， 如 图 18-1 所 示 。 

从 图 18-1 中 可 以 看 出 : 拿 到 Wikipedia (维基 百科 ) 的 文档 后 ， 可 以 变 成 Table ( 表 ) 形 
式 的 视图 ， 然 后 基于 Table〈 表 ) 形式 的 视图 ， 我 们 可 以 分 析 Hyperlinks( 超 链接 ) ， 也 可 以 
分 析 Term-Doc Graph (文本 分 词 图 ) ， 然 后 经 过 主题 模型 算法 (Latent Dirichlet Allocation， 
LDA) 之 后 进入 WordTopics (单词 主题 ) ， 对 于 上 面 的 Hyperlinks， 我 们 可 以 使 用 PageRank 
(网 页 排名 算法 ) 分 析 ， 在 下 面 的 Editor Graph (图 编辑 ) 到 Community (社区 ) ， 这 个 过 程 
可 以 称 为 Triangle Computation (三 角 计 算 ) ， 这 是 计算 三 角形 的 一 个 算法 。 基 于 此 ， 会 发 现 
一 个 社区 ， 从 上 面 的 分 析 中 可 以 发 现 图 计算 有 很 多 的 做 法 和 算法 ， 同 时 也 发 现 图 和 表格 可 以 
互相 转换 。 不 过 ， 并 非 所 有 的 图 计算 框架 都 支持 图 与 表格 的 互相 转换 。 
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Hyperlinks PageRank Top 20 Pages 
Raw Text 
Wikipedia Table 
i Doc Topic Model 
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图 18-1 图 计算 示例 
































Spark GraphX 的 优势 在 于 能 够 把 表格 和 图 进行 互相 转换 ， 这 一 点 可 以 带 来 非常 多 的 优 
势 ， 现 在 很 多 框架 也 在 渐渐 地 往 这 方面 发 展 。 例如，GraphLib 已 经 实现 了 可 以 读 取 Graph 中 
的 Data， 也 可 以 读 取 Table 中 的 Data， 还 可 以 读 取 Text 中 的 data， 即 文本 中 的 内 容 等 。 与 此 
同时 , Spark GraphX 基于 Spark 也 为 GraphX 增添 了 额外 的 很 多 优势 ， 如 和 mllib、Spark SQL 
RE 
今 图 计算 领域 对 图 的 计算 大 多 数 只 考虑 邻居 节点 的 计算 ， 也 就 是 说 ， 一 个 节点 计算 的 
时 候 会 考 由 其 邻居 节点， 对 于 非 邻居 节点 并 不 关心 ， 如 图 18-2 所 示 。 





图 18-2 图 计算 节点 


目前 基于 图 的 并 行 计算 框架 已 经 有 很 多 ， 比 如 来 自 Google 的 Pregel、 来 自 Apache 开源 
的 图 计算 框架 Giraph， 以 及 最 著名 的 GraphLab， 当 然 也 包含 HAMA， 其 中 ，Pregel、 
HAMA、Giraph 都 是 非常 类 似 的 ， 都 是 基于 BSP (Bulk Synchronous Parallel) 整体 同步 并 行 
模型 ，BSP 模型 实现 了 SuperStep ( 超 步 ) ，BSP 首先 进行 本 地 计算 ， 然 后 进行 全 局 的 通信 ， 
最 后 进行 全 局 的 Barrier (栅栏 )。BSP 最 大 的 好 处 是 编程 简单 ， 而 其 问题 在 于 一 些 情况 下 
BSP 运算 的 性 能 非常 差 ， 因 为 我 们 有 一 个 全 局 Barrier 的 存在 ， 所 以 系统 速度 取决 于 最 慢 的 计 
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算 ， 也 是 木 桶 原理 的 体现 ; 另 一 方面 ， 很 多 现实 生活 中 的 网 络 是 符合 震 律 分 布 的 ， 也 就 是 定 
点 、 边 等 分 布 式 很 不 均匀 ， 所 以 这 种 情况 下 ，BSP 的 木 桶 原理 导致 性 能 问题 会 得 到 放大 ， 对 
这 个 问题 的 解决 ， 以 GraphLab ( 卡 内 基 梅 隆 大 学 实验 室 提 出 的 基于 图 像 处 理 模型 的 开源 图 计 
算 框架 ) 为 例 ， 使 用 了 一 种 异步 的 概念 ， 而 没有 全 部 的 Barier; 最 后 ， 不 得 不 提 的 一 点 是 在 
Spark Graphx 中 可 以 用 极 简 洁 的 代码 非常 方便 地 使 用 Pregel 的 API。 

基于 图 的 计算 框架 的 共同 特点 ,抽象 出 了 一 批 API 来 简化 基于 图 的 编程 ， 这 往往 比 一 般 
的 data-parellel (数据 并 行 ) 系 统 的 性 能 高 出 很 多 倍 。 

传统 的 图 计算 往往 需要 不 同 的 系统 支持 不 同 的 View (视图 ) 。 例 如 ， 在 Table View ( 表 
视图 ) 下 可 能 需要 Spark 的 支持 或 者 Hadoop 的 支持 ， 而 在 Graph View〔 图 视图 ) 下 可 能 需 
要 Pregel 或 者 GraphLab 的 支持 ， 也 就 是 把 图 和 表 分 别 在 不 同 的 系统 中 进行 拉练 处 理 ， 如 图 
18-3 所 示 。 


Table View Graph View 
here Wi 
Spoik: Pregel GraphrLab、 有 


Dependency Graph 
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图 18-3 ”传统 图 的 计算 : 图 、 表 使 用 不 同 的 视图 处 理 


上 面 描述 的 图 计算 处 理 方式 是 传统 的 计算 方式 ， 当 然 , 除了 Spark GraphX 外 ,图 计算 框 
架 也 在 考虑 这 个 问题 ; 不 同系 统 带 来 的 问题 之 一 是 需要 学 习 、 部 署 和 管理 不 同 的 系统 ， 例 
如 ， 要 同时 学 习 、 部 署 和 管理 Hadoop、Hive、Spark、Giraph、GraphLab 等 。 我 们 需要 用 更 
少 的 框架 解决 更 多 的 问题 ， 如 图 18-4 所 示 。 


你 或 po 六 


图 18-4 大 数据 部 署 的 各 个 系统 


其 次 最 关键 的 问题 是 效率 问题 。 在 不 同 的 转换 中 间 ， 如 果 每 步 转换 都 要 落地 ， 数 据 转换 
和 复制 带 来 的 开销 (如 序列 化 带 来 的 开销 ) 也 非常 大 ， 同 时 中 间 结 果 和 相应 的 结构 无 法 重用 ， 
特别 是 一 些 结构 性 的 东西 。 例 如 ， 项 点 或 者 边 的 结构 一 直 没 有 变 ， 这 种 情况 下 结构 内 部 的 
Stmucture《〈 结 构 ) 是 不 需要 改变 的 ， 而 如 果 每 次 都 重新 构建 ， 就 算 不 变 ， 也 无 法 重用 ， 这 会 
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导致 性 能 非常 差 ， 如 图 18-5 所 示 。 


sh 6 


图 18-5 传统 图 的 计算 : 每 步 转换 落地 带 来 的 开销 较 大 








解决 方案 就 是 Spark GraphX (Spark 图 计算 ) ，GarphX 实现 了 Unified Representation ( 统 
一 表示 ) ，GraphX 统一 了 Table View ( 表 视 图 ) 和 Graph View (图 视图 ) ， 基 于 Spark 可 以 
非常 轻松 地 做 pipeline (管道 ) 的 操作 ， 如 图 18-6 所 示 。 





Table View Graph View 


图 18-6 ”Spark GraphX 图 计算 : 表 视 图 与 图 视图 的 统一 


如 果 和 Spark SQL 结合 ， 可 以 用 SQL 语句 进行 ETL (数据 清洗 ) ， 然 后 放 入 GraphX (图 
计算 ) 处 理 ， 这 是 非常 方便 的 。 

在 Spark GraphX 中 的 Graph 其 实 是 Property Graph (属性 图 ) ， 也 就 是 说 ， 图 的 每 个 顶 
点 和 边 都 是 有 属性 的 ， 如 图 18-7 所 示 。 


顶点 表 
图 属 从 属性 《顶点 ) 
(rxin， 学 生 student) 
Cjgonzal， 博 士 后 postdoc) 
5 (franklin， 教 师 prof) 
2 (istoica， 教 师 prof) 
边 表 
ID 属性 〈 顶 点 ) 
合作 者 
指导 教授 
同事 
项 目 负责 人 











franklin, 
教授 




















istoica, 


教授 





jgonzal, 


博士 后 











图 18-7 图 计算 示例 
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例如 ， 顶 点 为 3 的 名 称 为 rxin， 是 学 生 stu.， 顶 点 为 5 的 名 称 是 franlin， 是 教授 prof ， 
边 5 到 3 表明 5 是 3 的 Advisor (指导 教授 ) ， 图 18-7 中 (rxin, 学 生 ) 表示 的 是 相应 顶点 的 
Property (属性) ， 而 “指导 教授 、 合 作者 、 项 目 负 责 人 、 同 事 ” 表 示 的 是 边 的 Property， 边 





和 顶点 都 是 有 ID 的 ， 对 于 顶点 而 言 ， 有 自身 的 ID， 而 对 于 边 来 说 ， 有 SourceID 〈 源 ID) 和 
DestinationID (目的 ID) ， 即 对 于 边 而 言 ， 会 有 两 个 ID 表达 从 哪个 顶点 出 发 到 哪个 顶点 结 


束 ， 来 表明 边 的 方向 ， 这 就 是 Property Graph (属性 图 ) 的 表示 方法 如果 把 Property 反映 到 
表 上 ， 例 如 ， 在 Vertex Table (顶点 表 ) 中 ，Id 为 3 的 Property 就 是 (rxin，student) ， 而 在 
Edge Table( 边 表 ) 中 ，3 到 7 表明 的 边 的 Property 是 Collaborator (合作 者 ) 的 关系 ，2 到 5 
是 Colleague (同事 ) 的 关系 ; 更 重要 的 是 ，Property Graph (属性 图 ) 和 Table ( 表 ) 之 间 是 
可 以 相互 转换 的 。 在 GraphX 中 ,所 有 操作 的 基础 是 table operator ( 表 操作 ) 和 graph operator 
〈 图 操作 ) ， 其 继承 自 Spark 中 的 RDD， 都 是 针对 集合 进行 操作 。 


18.2 Spark GraphX 设计 实现 的 核心 原理 


Spark GraphX 是 基于 Spark 的 ， 如 何 使 得 GraphX 进行 分 布 式 计 算 呢 ? 答案 是 要 进行 图 
的 切 分 。 
切 分 有 两 种 : 一 种 是 对 边 进行 切 分 ， 一 种 是 对 顶点 进行 切 分 ， 如 图 18-8 所 示 。 








Edge Cut Vertex Cut 


图 18-8 图 计算 图 的 切 分 


切 分 的 时 候 有 几 种 不 同 的 Partition (分区) 策略 ，PartitionStrategy (分 区 策略 ) 专门 定义 了 这 
些 不 同 的 策略 ， 在 PartitionStrategy 的 object (对 象 ) 中 定义 了 4 种 不 同 的 Partition 策略 。 
第 一 种 分 区 策略 是 RandomVertextCnut。 
耳 Voi 
# 通 过 将 源 项 点 ID 和 目标 项 点 ID 进行 哈 希 计算 分 区 ， 在 随机 顶点 切 分 中 ， 将 两 个 顶点 之 间 
* 所 有 相同 方向 的 边 进行 聚合 协作 
2 sy 
3 
4. case object RandomVertexCut extends PartitionStrategy { 
3 override def getPartition(src: VertexId， dst: VertexId, numParts: 


PartitionID): PartitionID = { 
math.abs((src, dst) .hashCode()) $ numParts 


-Te 
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可 以 看 到 ,RandomVertextCut 是 通过 对 源 顶 点 ID 和 目标 顶点 ID 运行 hash 计算 来 实现 的 。 
第 二 种 分 区 策略 是 CanonicalRandomVertexCut。 


1. /** 
* 对 位 于 典型 方向 中 的 源 项 点 ID 和 目标 项 点 ID 进行 哈 希 计算 分 区 。 在 随机 顶点 切 分 中 ， 不 


* 管 是 什么 方向 ， 将 两 个 顶点 之 间 所 有 的 边 进行 聚合 协作 
*/ 


区 

二 | 

4. case object CanonicalRandomVertexCut extends PartitionStrategy { 

5 override def getPartition(src: VertexId, dst: VertexId, numParts: 
PartitionID): PartitionID = { 


\ Fl (sre < dsEy | 

YS math.abs((src, dst) .hashCode()) $% numParts 
要 } else { 

ge math.abs((dst, src).hashCode()) % numParts 
10. } 

I } 

:le 


从 实现 上 看 ，CanonicalRandomVertexCut 和 RandomVertextCut 没有 本 质 上 的 差别 。 

第 三 种 和 第 四 种 分 区 策略 分 别 是 EdgePartition1D 和 EdgePartition2D。 

在 四 种 分 区 策略 中 ， 关 键 的 是 EdgePartition1D 和 EdgePartition2D， 其 中 EdgePartition1D 
只 考虑 源 顶 点 的 ID， 而 在 EdgePartition2D 中 ， 源 顶点 的 ID 和 目标 顶点 的 ID 都 会 用 到 ， 在 
EdgePartition2D 的 时 候 ， 会 考虑 到 row 和 col， 即 行 和 列 ， 源 码 如 下 。 

1 

人 * 使 用 稀 疏 边 邻 接 和 矩阵 的 2D 分 区 将 边 计 算 分 区 ， 保 证 2 sqrt (numParts) 绑 定 在 复制 的 

* 顶 点 。 假 设 有 一 个 图 ， 图 有 12 个 顶点 ， 在 超过 9 台 机 器 的 节点 上 进行 分 区 ， 我 们 可 以 使 用 
* 以 下 稀疏 和 矩阵 表示 





ROOT 二 


六 六 玉米 率 六 六 
六 闵 闵 素来 


| 

AT | 玉 玉 六 玉 
1 
1 





闪 党 党 兴 


21. ”* 边 用 E 表示 , 连接 顶点 V11 与 顶点 V1, 将 其 分 配给 处 理 器 P6 。 根据 获取 的 处 理 器 数量 ， 
* 通 过 sqrt (numparts) 块 将 矩阵 分 为 sqrt (numparts) 。 注 意 : 顶点 V11 的 相 邻 边 
* 只 能 在 块 (P0，P3，P6) 的 第 一 列 或 者 块 (P6、P7、P8) 的 最 后 一 行 ， 因 此 可 以 保证 
* 顶 点 V11 被 复制 到 最 多 2 sqrt (numParts) 个 机 器 节点 上 
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24. ”<* 注意 ， P0 有 许多 边 ， 因 此 这 个 分 区 计算 不 均衡 。 为 了 提高 平衡 性 ， 我 们 首先 对 每 个 顶点 
* ID 乘 以 一 个 大 的 素数 ， 将 顶点 的 位 置 重新 打 乱 洗 牌 Shuffle 


26. ”* 当 请 求 的 分 区 数 不 是 一 个 完全 平方 数 ， 我 们 使 用 不 同 的 方法 计算 其 中 最 后 一 列 可 以 有 不 
* 同 数量 的 行 ， 而 其 他 列 仍 然 保持 相同 大 小 的 块 


Ts */ 
41 演 case object EdgePartition2D extends PartitionStrategy { 
之 85 override def getPartition(src: VertexId, dst: VertexId，numParts: 
PartitionID): PartitionID = { 
30- val ceilSqrtNumParts: PartitionID= math.ceil (math.sqrt (numParts)). 
toInt 
3E val mixingPrime: VertexId = 1125899906842597L 
3 if (numParts == ceilSqrtNumParts * ceilSqrtNumParts) { 
332 // 如 果 numParts 等 于 ceil1SqrtNumParts * ceilSqrtNumParts， 我 们 仍 使 用 
// 老 的 方法 ， 以 确保 得 到 相同 的 结果 
人 3 val col: PartitionID= (math.abs (src *mixingPrime) % ceilSqrtNumParts). 
toInt 
Ee val row: PartitionID= (math.abs (dst * mixingPrime) % ceilSqrtNumParts). 
toInt 
| (col * ceilSqrtNumParts + row) %$ numParts 
SI 
385 } else { 
398 // 否 则 使 用 新 方法 
40. val cols = ceilSqrtNumParts 
4 和 Val rows = (numParts + cols - 1) / cols 
225 val lastColRows = numParts - rows * (cols - 1) 
43 . val col = (math.abs(src * mixingPrime) % numParts / rows) .toInt 
44. val row = (math.abs(dst * mixingPrime) % (if (col < cols - 1) rows 
else lastColRows)) .toInt 
ds Col * rows + row 
46. 
47. } 
48. } 
49 
50. 
SE 
* 指 定 边 仅 使 用 源 顶 点 ID 计算 分 区 ， 使 用 相同 的 源 项 点 协调 计算 
52: 2 
中 
54. case object EdgePartitionlD extends PartitionStrategy { 
es override def getPartition(src: VertexId, dst: VertexId, numParts: 
PartitionID): PartitionID = { 
S56 val mixingPrime: VertexId = 1125899906842597L 
Sis (math.abs(src * mixingPrime) $ numParts) .toInt 
Ss Li 
= 
60. 
Se 


在 EdgePartition2D 中 可 以 看 到 有 一 个 mixingPrime (素数 ) ， 这 个 非常 大 的 素数 主要 是 
为 了 取得 计算 平衡 ， 但 本 质 上 讲 ， 它 是 无 法 解决 这 个 问题 的 ， 只 能 缓 减 这 个 问题 。 至 此 ， 我 
们 阅 述 了 PartitionStrategy〈 分 区 策略 ) 中 定义 的 4 种 不 同 的 Partition (分区) 策略 。 

接 下 来 以 图 18-9 为 例 ， 对 Spark GraphX 图 计算 的 分 区 进行 说 明 。 

图 18-9 中 左 侧 的 Property Graph (属性 图 ) 被 分 成 两 个 Partition，Vertex Table (顶点 表 ) 
的 信息 表明 其 中 A、B、C 在 一 个 Partition 中 ，D、E、F 在 另外 一 个 Partition 中 ; 而 右 侧 的 
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Edge Table ( 边 表 ) 表明 每 个 Partition 中 的 不 同 的 edge ( 边 ) 。Spark GraphX 中 一 个 非常 棒 
的 地 方 是 Routing Table (路 由 表 ) 部 分 。Routing Table 记录 了 节点 的 路 由 ， 如 图 18-9 中 A 
在 Part 1 和 了 Part 2 中 出 现 ， 也 就 是 说 ， 在 做 mapVertices 和 mapEdsges 等 操作 的 时 候 ， 其 内 部 
结构 是 不 会 变 的， 所 以 我 们 可 以 重用 ， 这 个 不 变 的 内 部 结构 同时 也 给 pipeline (管道 ) 带 来 天 
然 的 优势 。 





Property Grapt Table 


Routing Edge Table 
R 


dd) 


Ee RANT, 


2D Vertex Cut Heuristic 





图 18-9 ”图 计算 分 区 示意 图 


18.3 Table operator 和 Graph Operator 


Spark GraphX 图 计算 源码 中 有 两 个 非常 重要 的 类 : Graph 类 、GraphOps 类 。 
先 看 一 下 Graph 类 。 在 IDEA 中 ,在 Graph.scala 代码 中 使 用 Ctrl+F12 查看 Graph 包含 的 
属性 及 方法 ， 如 图 18-10 所 示 。 








Graph scala 
癌 Sow inherited sesbers (Ctri*F12) OD Show scala tests 如 
TY rrh 
国 vertices 
国 edees 


国 triplets 

@ persist StorageLevel): Graph[m，ED] 

@ cache 0 Graph[W, ED] 

图 checkpoint 0: Unit 

@ ischecmointed Boolem 

@ eetCheckpointFiles: Sea[string] 

@ unpersist Boolean); Graph[yD, ED] 

@ upersistVertices (Boolean): Graph[VD, ED] 

@ partitionBy PartitionStrategy). Graph[yD, ED] 

OO partitionBy PartitionStrategy, Int): Graph[VD，ED] 

BO napVertices[VD2: ClassTag] ((VertexId, 由) => VD2) (VD =:= VD2): Graph[VD2, ED] 

@ napEdges[ED2: ClassTag] Edge[ED] => ED2): Graph[YD，FD2] 

OO napldees[ED2: classTag] ((PartitionID, Iterator[Edge[ED]]) => Iterator[ED2]): Graph[yD, ED2] 
@ napIriplets[ID2: ClassTag] EdgeTriplet[WD, ED] => ED2): Graph[WD, ED2] 

@ naplriplets[ED2. ClassTag] EdgeTriplet[m，ED] => ED2, TripletFields). Graph[WD, ED2] 

OO naplriplets[ED2;: ClassTag] ((PartitionID, Iterator[EdgeTriplet[VD, ED]]) => Iterator[ED2], TripletFields): Graph[VD, ED2] 
reverse; Graph[m，ED] 


图 18-10 ”Graph 的 属性 及 方法 


-Toa 
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在 Graph 中 ， 我 们 看 到 groupEdges、mapTriplets 等 最 重要 的 方法 。Graph 类 的 说 明正 如 
其 注释 所 示 : 图 Graph 抽象 地 表示 任意 图 对 象 中 顶点 和 边 的 关系 。 图 提供 基本 操作 去 管理 和 
操作 顶点 、 边 以 及 底层 结构 的 相关 数据 。 类 似 于 Spark RDD， 图 是 一 种 函数 式 数据 结构 ， 可 
以 通过 转换 操作 返回 一 个 新 的 图 。 


‘ 
之 > 


Fo auw 必 w 


0. 





/** 

* 图 Graph 抽象 地 表示 任意 图 对 象 中 顶点 和 边 的 关系 。 图 提供 基本 操作 去 管理 和 操作 顶点 、 边 
* 以 及 底层 结构 的 相关 数据 。 类 似 于 Spark RDD， 图 是 一 种 函数 式 数据 结构 ， 可 以 通过 转换 操 
* 作 返回 一 个 新 的 图 


* 
* @note [[Graphops]] 包含 附加 的 操作 和 图 算法 

* 

* Qtparam VD 顶点 属性 类 型 

来 

* Q@tparam ED 边 属性 类 型 

i class Graph[VD: ClassTag, ED: ClassTag] protected () extends 
Serializable { 


/** 


* 顶点 RDD 包含 顶点 及 相关 的 属性 


* @note 顶点 ID 是 唯一 的 

* @return an RDD 返回 RDD 包含 图 中 的 顶点 
a 

val vertices: VertexRDD[VD] 


Graph 类 是 一 个 抽象 类 ， 很 多 内 容 都 没有 具体 实现 ， 具 体 实现 是 由 GraphImpl 完成 的 ， 


源码 如 下 。 





/** 
* 图 [org .apache .spark.graphx.Graph] 的 具体 实现 。 图 用 两 组 RDD 表示 : vertices 顶 
* 点 包含 顶点 属性 和 将 顶点 属性 传送 到 边 分 区 的 路 由 信息 ; replicatedVertexView 包含 边 、 
* 及 边 涉 及 的 顶点 属性 
*/ 


class GraphImpl [VD: ClassTag, ED: ClassTag] protected ( 
@transient val vertices: VertexRDDI[VD], 
@transient val replicatedVertexView: ReplicatedVertexView[VD, ED]) 
extends Graph[VD，ED] with Serializable { 


/it# 构 造 函数 ， 支 持 序列 化 */ 
protected def this() = this(null, null) 


@transient override val edges: EdgeRDDImp] [ED, VD] = replicatedVertexView. 
edges 


/** 返 回 RDD， 边 中 包含 源 项 点 及 目标 项 点 */ 
@transient override lazy val triplets: RDD[EdgeTriplet[VD, ED]] = { 
replicatedVertexView.upgrade (vertices, true, true) 





Spark GraphX 图 计算 源码 中 另外 一 个 重要 的 类 是 GraphOps 类 。GraphOps 类 是 Graph 非 


= 
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常 重要 的 协同 工作 的 类 。 
kp | /** 
2.  * 包 含 图 [Graph] 的 附加 功能 。 为 每 个 图 对 象 隐 式 构造 该 类 ， 所 有 操作 都 可 使 用 API 
“人 * 
4. * Q@tparam VD 顶点 属性 类 型 
ye * Qtparam ED 边 属性 类 型 
[E */ 
7. class GraphOps[VD: ClassTag, ED: ClassTag] (graph: Graph[VD, ED]) extends 
Serializable { 
二 
9 . /** 图 中 边 的 数量 . */ 
10. etransient lazy val numEdges: Long = graph.edges.count () 
TE 
12.  /#*# 图 中 顶点 的 数量 */ 
13. etransient lazy val numVertices: Long = graph.vertices.count () 
14. 
Ls 
16. ”* 图 中 每 个 顶点 的 度 
LT * @note Vertices with no in-edges are not returned in the resulting RDD. 
18 . */ 
于 号 5 @transient lazy val inDegrees: VertexRDD[Int] = 
20. degreesRDD (EdgeDirection.In) .setName ("GraphOps .inDegrees") 


18.4 Vertices、 edges、 triplets 


Vertices、edges、triplets 是 Spark GraphX 中 3 个 最 重要 的 概念 。 
Vertices 对 应 的 RDD 名 称 为 VertexRDD， 属 性 有 顶点 ID 和 顶点 属性 。VertexRDD 的 源 


码 如 下 。 


全 
全 = 


-Je 


/** 
* 扩 展 RDDI (VertexId，VD) ] 确保 对 于 每 个 顶点 ， 只 有 一 个 实体 ， 对 于 每 个 实体 ， 建 立 预 
*# 索 引 ， 这 样 可 以 建立 快速 高 效 的 连接 。 两 个 项 点 RDDVertexRDDs 如 有 相同 的 索引 ， 可 以 有 
* 效 地 连接 。 所 有 的 操作 除了 [reindex] 外 ,都 会 保存 索引 。 可 以 使 用 [org.apache.spark. 
*graphx.VertexRDD$ VertexRDD object] 构 建 VertexRDD 


六 


* 此 外 ， 存 储 路 由 信息 可 以 使 项 点 属性 与 边 RDD [EdgeRDD] 进行 关联 

六 六 

*Q@example ”从 一 个 普通 的 RDD 构建 VertexRDD 

bl 

*// 构建 初始 化 顶点 集 

*val someData: RDDI[ (VertexId, SomeType)] = loadData (someFile) 
*val Vset = VertexRDD (someData) 

*// 如 果 在 someData 中 有 一 些 元 余 值 ， 我 们 使 用 reduceFunc 函数 进行 聚合 
*#Val Vset2 = VertexRDD(someData, reduceFunc) 

*// 最 后 ， 可 以 转换 VertexRDD 去 索引 另 一 个 数据 集 

*val otherData: RDD[ (VertexId, OtherType)] = loadData (otherFile) 
*val Vset3 = Vset2.innerJoin (otherData) { (vid, a, b) => b } 


*// 现 在 我 们 可 以 构造 两 个 集合 之 间 的 快速 连接 
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165 *val Vset4: VertexRDD[ (SomeType, OtherType)] = vset.leftJoin (vset3) 


9 册 忆 上 

205 * 

ZE *Q@tparam VD 每 个 顶点 关联 的 顶点 属性 

2 4 

23. abstract class VertexRDD[VD] ( 

24. sc: SparkContext, 

站 本 deps: Seq[Dependency[ ]]) extends RDD[ (VertexId, VD)] (sc, deps) { 
26. implicit protected def vdTag: ClassTag[VD] 

人 





从 源码 中 可 以 看 出 VertexRDD 继承 自 RDD[(VertexId, VD) ],， RDD 的 类 型 是 VertexId 和 
VD， 其 中 VD 是 属性 的 类 型 ， 也 就 是 说 ，VertexRDD 有 ID 和 顶点 属性 。 

边 Edges 对 应 的 是 EdgeRDD， 属 性 有 3 个 : 源 顶 点 的 ID、 目 标 项 点 的 ID、 边 属性 。 
EdgeRDD 的 源码 如 下 。 


1. /** 

*EdgeRDD [ED，VD] ` 继 承 自 RDD [Edge [ED] ] ， 通 过 在 每 个 分 区 以 列 格式 存储 边 的 数据 ， 

* 还 可 以 存储 与 边关 联 的 顶点 属性 ， 提 供 边 的 三 元 组 视图 。 顶 点 属性 的 传送 由 imp1.Replicated 
*VertexView 进行 管理 

*/ 


abstract class EdgeRDD[ED] ( 
sc: SparkContext, 
deps: Seq[Dependency[ ]]) extends RDD[Edge[ED]] (sc, deps) { 


// scalastyle: 关 闭 structural .type 

private[graphx] def partitionsRDD: RDD[ (PartitionID, EdgePartition[ED, 
VD])] forSome { type VD } 

10. // scalastyle: 打 开 structural.type 


oo N 


12. override protected def getPartitions: Array[Partition] = partitionsRDD. 
partitions 


从 源码 中 可 以 看 出 EdgeRDD 继承 的 RDD 的 类 型 是 Edge[ED]。 
Triplets 的 属性 有 源 顶 点 ID、 源 顶点 属性 、 边 属性 、 目 标 顶 点 ID、 目 标 顶 点 属性 ，Triplets 
其 实 是 对 Vertices 和 Edges 做 了 Join 操作 ， 如 图 18-11 所 示 。 


Vertices Triplets Edges 


oO (最 人 ) 
5 
oi CGI 


图 18-11 Triplets 属性 


以 及 自身 的 属性 全 部 连 在 一 起 了 ， 如 果 我 们 需要 使 用 顶点 及 自己 的 属性 以 及 和 顶点 关联 的 边 


“T6032 
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的 属性 ， 


cawm 心 wm 


Po 
Si 


那 就 必须 使 用 Triplets。Triplets 的 RDD 的 类 型 是 EdgeTriplet， 其 源码 实现 如 下 。 
/** 
* 边 三 元 组 表示 一 条 边 以 及 边 相 邻 顶 点 的 顶点 属性 


*@tparam VD 顶点 属性 类 型 
*Q@tparam ED 边 属性 类 型 
间 
class EdgeTriplet[VD，ED] extends Edge[ED] { 
/** 
* 源 项 点 属性 
*/ 


var sreAttrs. VD = // nullValue [VD] 


/** 


* 目标 项 点 属性 
4 


var dstAttr: VD = _ // nullValue[VD] 


/** 
* 设置 三 元 组 中 边 的 属性 
二 


protected[spark] def set (other: Edge [ED]) : EdgeTriplet[VD, ED] = { 
SrcId = other.srcId 
dstId = other.dqstId 
attL = other.attr 
this 
} 


从 源码 中 可 以 看 到 EdgeTriplet 继承 自 Edge[ED]， 同 时 ，EdgeTriplet 用 srcAttr 表示 源 顶 
点 的 属性 ， 用 dstAttr 表示 目标 顶点 的 属性 。 其 父 类 Edge 的 源码 如 下 。 


Foc~aawm 必 wN 


/** 
由 源 ID、 目 标 ID 组 成 的 单个 有 向 边 ， 与 边 相 关 的 数据 。 


etparam ED 边 属性 类 型 


于 
六 


eparam dstId 目标 顶点 ID 
eparam attr ”关联 的 边 的 属性 
各 六 
case class Edge[@specialized(Char, Int， Boolean, Byte, Long, Float, 
Double) ED] ( 
var SrcId: VertexId = 0, 
var dstId: VertexId = 0, 
Var attr: ED = null.asInstanceOf [ED]) 
extends Serializable { 


* 
六 
* Q@param srcId 源 顶 点 ID 
本 
可 


/** 
* 给 定 边 中 的 一 个 顶点 ， 返 回 另 一 个 顶点 
* @param Vid 边 上 两 个 顶点 ， 其 中 一 个 顶点 的 ID 
* @return 边 上 另 一 个 顶点 的 ID。 
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2 
2 
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*/ 
def otherVertexId(vid: VertexId) : VertexId = 


if (srcId == vid) dstId else { assert(dstId == vid); srcId } 


从 边 Edge 的 源码 中 可 以 看 到 ， 构 造 方法 中 用 srcId 标志 源 顶 点 的 ID， 用 dstId 标志 目标 
顶点 的 卫 , 用 attr 表示 edge 的 属性 , 这 样 , 作为 Edge 的 继承 者 EdgeTriplet 就 拥有 5 个 属性 ， 
而 前 面 分 析 的 VertexRDD 只 有 两 个 属性 集 ， 即 Vertex 的 ID 和 属性 。 


18.5 以 最 原始 的 方式 构建 Graph 


以 最 原始 的 方式 构建 Graph 其 实 使 用 的 是 Graph 的 伴生 对 象 的 apply 的 方式 ， 其 源码 如 


下 所 示 。 
1. /es 
2 * 从 顶点 集合 和 边 属性 构建 图 。 任 意 选择 复制 的 顶点， 在 边 集合 中 找到 顶点 ， 而 不 是 在 输入 顶 
3 * 点 中 查找 ， 将 项 点 指定 为 默认 属性 
4. * 
5 * @tparam VD 顶点 属性 类 型 
GE * @tparam ED 边 属性 类 型 
了 * @param vertices 顶点 及 其 属性 的 “集合 ” 
8 * Q@param edges 图 中 边 的 集合 
9 * @param defaultVertexAttr 用 于 在 边 中 但 不 在 顶点 中 提 到 的 顶点， 设置 默认 顶点 属性 
10. * @param edgeStorageLevel 必要 的 存储 级 别 ， 在 必要 时 缓存 边 
TE * @param vertexStorageLevel 如 果 需 要 ， 缓 存 顶 点 的 存储 级 别 
32< 区 
13. def apply[VD: ClassTag, ED: ClassTag] ( 
14. vertices: RDD[ (VertexId, VD)], 
EH edges: RDD[Edge [ED]]， 
16 . defaultVertexAttr: VD = null.asInstanceOf [VD], 
es edgeStorageLevel: StorageLevel = StorageLevel .MEMORY ONLY, 
18. vertexStorageLevel: StorageLevel = StorageLevel .MEMORY ONLY) : Graph 
VD- ED = 
9< GraphImpl (vertices, edges, defaultVertexAttr, edgeStorageLevel, vertex 
StorageLevel) 
2 
从 源码 中 可 以 看 到 ， 构 建 图 Graph 首先 需要 顶点 Vertices 的 RDD， 此 时 的 顶点 Vertices 


了 RDD[(VertexId, VD)]， 第 二 点 是 要 放 入 边 edges， 第 三 个 元 素 是 放 入 默认 顶点 的 属性 ， 当 
然 可 以 null。 需 要 注意 的 是 ， 默 认 的 顶点 属性 只 是 给 我 们 使 用 ， 并 不 在 顶点 Vertices 里 面 ， 
接 下 来 是 edgeStorageLevel 和 vertexStorageLevel， 用 来 指定 存储 策略 。 图 的 边 和 顶点 并 不 是 
在 一 起 Cache 的 ， 这 里 默认 的 存储 策略 都 是 StorageLeveLMEMORY _ ONLY， 最 后 我 们 发 现 
创建 一 个 Graph 实例 是 使 用 GraphImpl 来 完成 的 。 


18.6 


第 一 个 Graph 代码 实例 并 进行 Vertices、edges、triplets 


操作 实战 


在 这 一 节 中 ,构建 Graph 的 数据 来 源 有 两 种 : 一 种 是 本 地 的 数据 集 ; 一 种 是 来 自 Google 


二 
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的 数据 集 。 下 面 先 看 一 下 本 地 数据 集 构建 Graph 的 操作 ， 该 内 容 也 来 自 Spark 1.0.2 GraphX 
的 官方 文档 : http://spark.apache.org/docs/latest/graphx-programming-guide.html。 
我 们 在 IDEA 中 已 导入 Spark 7.1.0 的 Jar 包 , 将 在 IDEA 中 编码 实现 Spark Graph 的 案例 。 
首先 把 相关 应 该 导入 的 类 导入 进来 。 
1. import org.apache.spark._ 
import org.apache.spark.graphx. 


2 3 
3. // 在 图 计算 的 例子 运行 中 我 们 需要 导入 RDD 的 包 
4 import org.apache.spark.rdd.RDD 


可 以 看 出 我 们 导入 了 org.apache.spark 下 面 的 内 容 , 同时 也 导入 了 org.apache.spark.graphx 
下 面 的 内 容 ， 最 后 为 了 方便 后 续 的 RDD 操作 ， 还 导入 了 org.apache.spark.rdd.RDD。 作 为 第 
一 个 例子 ， 我 们 用 的 是 图 18-7 中 表示 的 数据 。 

Spark GraphX 官方 文档 提供 的 代码 如 下 。 
// 假 设 已 经 构建 SparkContext 


val sc: SparkContext 

// 创 建 顶点 的 RDD 

val users: RDD[(VertexId， (String, String))] = 

sc.parallelize (Array( (3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")), 
(Sly ("franklin™, “prof™))y ‘(21 LSEOUCa “prof™})yy 
// 创 建 边 的 RDD 

val relationships: RDD[Eqge [String]] = 

sc.parallelize (Array (Edge (3L, 7L, "collab"), Edge (5L, 3L, "advisor"), 
DE Edge (2L, 5L, "colleague"), Edge(5L, 7L, "pi"))) 
11. // 定 义 案例 中 顶点 的 默认 使 用 者 ， 在 缺失 使 用 者 的 情况 下 ， 图 可 以 建立 关联 

12. val defaultUser = ("John Doe", "Missing") 

13. // 初 始 化 图 


14. val graph = Graph (users, relationships, defaultUser) 


对 于 图 中 的 顶点 users 这 个 RDD 而 言 ， 其 每 个 元 素 包含 一 个 ID 和 属性 ， 属 性 是 由 姓名 
(name) 和 职业 〈occupation) 构成 的 元 组 ， 因 为 要 生产 RDD， 所 以 使 用 sc.parallelize 函数 把 
Array 转换 一 下 。parallelize 方法 的 源码 如 下 所 示 。 

下 /** 分 配 本 地 Scala 集合 形成 一 个 RDD 


加 oo~am 必 wmwNP 





2 * 注 : 并 行 化 操作 是 懒 加 载 。 如 果 SEQ 是 一 个 可 变 的 集合 ， 在 RDD 的 第 一 个 执行 动作 之 前 
*# 调 用 并 行 化 方法 数据 会 发 生 改变 ， 计 算 的 结果 RDD 将 反映 变化 以 后 的 集合 。 传 递 一 个 复制 
* 的 参数 来 避免 这 个 情况 。 

3 * 注 : 避免 使 用 并 行 (seq () ) 创建 一 个 空 的 RDD。 考 虑 到 emptyrdd RDD 没有 分 区 , 或 
* 并 行 SEQ [t] () ) 是 空 分 区 的 情况 。 

4. */ 

I def parallelize[T: ClassTag] ( 

) 3 seq: Seq[T], 

Re numSlices: Int = defaultParallelism): RDD[T] = withScope { 

8 assertNotStopped () 

: 周 new ParallelCollectionRDDI[T] (this, seq, numSlices, Map[Int， Seq 
[string]] ()) 

10. } 


从 官方 给 出 的 第 一 个 图 GraphX 的 源码 同样 可 以 看 出 ， 关 联 (relationships) 每 个 元 素 由 
源 顶 点 ID、 目 标 顶 点 ID 和 边 的 属性 三 部 分 构成 。 
接 下 来 一 个 非常 重要 的 对 象 为 默认 使 用 者 〈defaultUser) ， 其 主要 作用 就 在 于 ， 当 想 描 





“hb 
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述 一 种 关联 中 不 存在 的 目标 项 点 的 时 候 ， 就 会 使 用 这 个 默认 使 用 者 。 例 如 ，5 到 0 这 个 关联 
是 不 存在 的 ， 那 就 会 默认 指向 默认 使 用 者 ， 这 就 是 默认 使 用 者 的 用 途 。 如 果 在 编码 中 不 想 要 
默认 使 用 者 ， 这 也 是 可 以 的 。 

在 IDEA 中 编码 首先 生成 使 用 者 (users) 这 个 RDD。 


val users: RDD[ (VertexId, (String, String))] = 
sc.parallelize (Array ((3L, ("rxin", "student")), 
(Le gonzal ne “postadoc™ 7 
Uo Uranklin, PProEs yy 
人 


上 述 代码 生成 的 是 顶点 表 (Vertex Table) 。 





AODP 











ID 属性 (顶点 ) 
3 (rxin, student) 
这 (jgonzal, postdoc) 
5 (franklin, prof) 
2 (istoica, prof) 





接 下 来 生成 关联 这 个 RDD。 


1 val relationships: RDD[Edge [String]] = 

站 sc.parallelize (Array (Edge (3L, 7L, "collab"), 
3 Edge (5L, 3L, "advisor"), 

4 Edge (2L, 5L, "colleague"), 

5 Edge (5L, 7L, "pi"))) 


上 述 代 码 生 成 的 是 边 表 (Edge Table) 。 





源 四 属性 ( 边 ) 
3 collab 
和 advisor 
2 colleague 
5 PI 
代码 中 使 用 了 Edge 这 个 case class， 其 源码 如 下 。 
/** 
2 * 由 源 ID、 目 标 ID 及 边 相 关 的 数据 组 成 的 单条 有 向 边 。 
| 来 
4 * Q@tparam ED 边 属性 的 类 型 
与 所 生 
6. * Q@param srcId 源 顶 点 的 顶点 ID 
* Q@param dstId 目标 顶点 的 顶点 ID 
8 * @param attr 边 的 关联 属性 
本 六 
10.case class Edge [@specialized (Char, Int, Boolean, Byte, Long, Float, Double) 
ED] ( 
A Var SrcId: VertexId = 0, 
he var dstId: VertexId = 0, 
A Var attr: ED = null.asInstanceOf [ED]) 
14. extends Serializable { 
接 下 来 放 入 默认 使 用 者 : 


ss 
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I 


val defaultUser = ("John Doe", "Missing") 


此 时 我 们 使 用 Graph 的 Graph 方法 (调用 object Graph 伴生 对 象 的 apply 方法 ) 即 可 构造 
出 图 ， 代 码 如 下 所 示 。 


机 


val graph = Graph (users, relationships, defaultUser) 


再 次 看 一 下 Graph 实例 构造 的 源码 。 


39= 


/*: 


水 


*# 从 顶点 集合 以 及 边 属 性 集 构建 一 个 图 ， 将 边 集合 中 可 以 找到 的 顶点 进行 复制 ， 如 发 现 项 点 不 
* 在 输入 的 顶点 中 ， 将 被 分 配 默认 属性 


etparam VD 顶点 的 属性 类 型 

etparam ED 边 的 属性 类 型 

Q@param vertices 顶点 以 及 属性 集 

Q@param edges 图 中 边 的 集合 

eparam defaultVertexAttr 用 于 顶点 的 默认 顶点 属性 ， 这 些 顶 点 在 边 中 涉及 ， 但 不 
* 在 顶点 中 

* @param edgeStorageLevel ”定义 的 存储 级 别 ， 必 要 时 缓存 边 的 数据 

* @param vertexStorageLevel 定义 的 存储 级 别 ， 必 要 时 缓存 顶点 的 数据 

此 


闪闪 


def apply[VD: ClassTag, ED: ClassTag] ( 


1 


vertices: RDD[(VertexId，VD) ] ， 
edges: RDD[Edge[ED]], 
defaultVertexAttr: VD = null.asInstanceOf [VD], 
edgeStorageLevel: StorageLevel = StorageLevel .MEMORY ONLY, 
VertexStorageLevel: StorageLevel = StorageLevel .MEMORY ONLY) : Graph [VD, 
ED 
GraphImpl (vertices, edges, defaultVertexAttr, edgeStorageLevel, 
vertexStorageLevel) 


从 源码 中 可 以 看 出 使 用 Graph 类 的 伴生 对 象 的 apply 方法 产生 了 Graph 实例 对 象 ， 具 体 
的 实现 为 GraphImpl。 在 代码 中 依旧 使 用 了 GraphImpl 伴生 对 象 的 apply 方法 ， 如 下 所 示 。 
/** 


水 
水 


从 顶点 和 边 数据 构建 一 个 图 , 设置 默认 的 顶点 为 defaultVertexAttr. 
好 


def apply[VD: ClassTag, ED: ClassTag] ( 


} 


vertices: RDDI[ (VertexId, VD)], 
edges: RDD[Edge[ED]], 
defaultVertexAttr: VD, 
edgeStorageLevel: StorageLevel, 
vertexStorageLevel: StorageLevel): GraphImpl[VD, ED] = { 
val edgeRDD = EdgeRDD.fromEdges (edges) (classTag [ED], classTag[VD]) 
.withTargetStorageLevel (edgeStorageLevel) 
val vertexRDD = VertexRDD (vertices, edgeRDD, defaultVertexAttr) 
.withTargetStorageLevel (vertexStorageLevel) 
GraphImpl (vertexRDD, edgeRDD) 


继续 跟踪 源码 ， 在 以 下 源码 中 可 以 看 到 第 8 行进 行 了 顶点 的 缓存 ， 第 13 行进 行 了 边 的 


缓存 。 


ws 
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/** 
* 从 顶点 RDD (VertexRDD) 以 及 边 RDD (EdgeRDD) 中 任意 复制 顶点 构建 一 个 图 。 通 过 调 
* 用 VertexRDD.withEdges 或 者 适当 的 VertexRDD 构造 器 ， 顶 点 RDD (VertexRDD) 
* 将 和 边 RDD (EdgeRDD) 建立 有 效 的 关联 
w*/ 
def apply[VD: ClassTag, ED: ClassTag] ( 
vertices: VertexRDDI[VD], 
edges: EdgeRDD[ED]): GraphImpl[VD, ED] = { 


vertices.cache () 


// 将 边 中 顶点 分 区 转换 为 正确 类 型 

val newEdges = edges.asInstanceOf [EdgeRDDImpl [ED, ]] 
-mapEdgePartitions( (pid, part) => part.withoutVertexAttributes [VD]) 
-Cache () 


GraphImp]l .fromExistingRDDs (vertices, newEdges) 
} 


进入 fromExistingRDDs 中 : 


Ys 


~awm 心 wN 


8 . 


/** 
* 使 用 同样 的 复制 顶点 的 类 型 ， 从 顶点 RDD (VertexRDD) 以 及 边 RDD (EdgeRDD) 构建 
* 一 个 图 ， 通 过 调用 VertexRDD.withEdges 或 者 适当 的 VertexRDD 构造 器 ， 顶 点 RDD 
* (VertexRDD) 将 和 边 RDD (EdgeRDD) 建立 有 效 关联 
本 
def fromExistingRDDs[VD: ClassTag, ED: ClassTag] ( 
vertices: VertexRDD[VD] ， 
edges: EdgeRDD[ED]) : GraphImpl [VD, ED] = { 
new GraphImpl (vertices, new ReplicatedVertexView (edges.asInstanceOf 
[EdgeRDDImp]1 [ED, VD]])) 
} 


此 时 使 用 GraphImpl 的 类 构造 出 了 Graph 对 象 实例 。 


BE 


/** 


* 通 过 [org.apache .spark.graphx.Graph] 的 实现 支持 图 计算 
* 


* 图 表示 为 两 个 RDD: vertices 包含 了 顶点 的 属性 以 及 用 于 将 顶点 属性 传送 到 边 分 区 的 路 由 
* 信 息 ; replicatedVertexView, 其 中 包含 每 个 边 所 涉及 的 边 和 顶点 属性 
*/qqqqqqqqqqqq 
class GraphImpl [VD: ClassTag, ED: ClassTag] protected ( 
@transient val vertices: VertexRDDI[VD], 
@transient val replicatedVertexView: ReplicatedVertexView[VD, ED]) 
extends Graph[VD，ED] with Serializable { 


/** Default constructor is provided to support serialization */ 
protected def this() = this(null, null) 


etransient override val edges: EdgeRDDImp] [ED, VD] = replicatedVertex 
View.edges 


/** Return an RDD that brings edges together with their source and 

destination vertices. */ 

@transient override lazy val triplets: RDD[EdgeTriplet[VD, ED]] = { 
replicatedVertexView.upgrade (vertices, true, true) 


Ta 
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19, replicatedVertexView.edges.partitionsRDD.mapPartitions( .flatMap { 
20. case (pid, part) => part.tripletIterator() 

ZL }) 

4 

其 中 ReplicatedVertexView 的 代码 如 下 所 示 。 

1. /** 


* 通 过 [org.apache .spark.graphx .EdgeRDD] 管 理 顶 点 属性 传送 到 边 分 区 。 顶点 属性 可 以 
* 部 分 传送 ， 来 构造 只 有 一 个 顶点 属性 的 三 元 组 ， 它 们 可 以 被 更 新 。 一 个 活跃 的 顶点 还 可 以 将 设置 
* 传 送 到 边 分 区 。 注 意 ， 不 要 将 引用 存储 到 edges， 因 为 它 可 能 在 属性 传送 级 别 更 新 的 时 候 被 修改 

| 本/ 

3. private[impl] 

4. class ReplicatedVertexView[VD: ClassTag, ED: ClassTag] ( 


号 < var edges: EdgeRDDImp1[ED，VD]， 
6. var hasSrcId: Boolean = false, 
对 var hasDstId: Boolean = false) { 
8 . 
罗 7/ 
* 返 回 一 个 ReplicatedVertexView 与 指定 的 EdgeRDD, 必须 使 用 相同 的 传送 级 别 
10 . */ 
Ue def withEdges[VD2: ClassTag, ED2: ClassTag] ( 
25 edges: EdgeRDDImp1l [ED2, VD2]): ReplicatedVertexView[VD2，ED2] = { 
35 new ReplicatedVertexView( edges，hasSrcId，hasDstId) 
14. 上 } 


可 以 看 到 ， 实 际 使 用 GraphImpl 构造 出 了 图 的 实例 ， 此 时 我 们 就 构造 出 了 一 张 构 建 图 如 
图 18-12。 


图 属性 
Xin， franklin, 
学 和 牛 教授 
jgonzal, istoica, 
车 士 后 教授 





图 18-12 构建 图 


下 面 按照 Spark GraphX 官方 文档 提供 的 方式 对 构造 出 来 的 Graph 对 象 进行 操作 。 例 如 ， 
要 看 职业 〈occupation) 为 博士 后 (postdoc) 的 顶点 数目 ， 使 用 如 下 代码 即 可 。 


请 //val graph: Graph[(String，String) ，String] 在 之 前 构建 的 图 实例 

2 // 计 算 图 中 职业 是 博士 后 的 节点 数量 

< val filteredVertices: VertexId = graph.vertices.filter { case (id, 
(name, pos)) => pos == "postdoc" }.count 

4. System.out .println ("图 中 职业 是 博士 后 的 节点 数量 计数 为 "+ filteredVertices) 

在 IDEA 中 运行 代码 结果 如 下 。 


1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 


a 
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Properties 

17/02/22 12:20:40 INFO SparkContext: Running Spark version 7.1.0 

3. 17/02/22 12:20:41 WARN NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 


IN 


5. 17/02/22 12:20:48 INFO DAGScheduler: ResultStage 2 (reduce at 
VertexRDDImpl .scala:90) finished in 0.207 s 

6. 17/02/22 12:20:48 INFO DAGScheduler: Job 0 finished: reduce at 
VertexRDDImpl .scala:90, took 7.069002 s 


7. 图 中 职业 是 博士 后 的 节点 数量 计数 为 : 本 


通过 计算 发 现 顶 点 使 用 者 的 职业 是 博士 后 的 节点 ， 此 时 从 图 的 属性 可 以 发 现 项 点 为 7 的 
这 个 使 用 者 ， 如 图 18-12 所 示 。 

例如 ， 要 计算 生成 的 graph 中 源 项 点 ID 大 于 目标 项 点 ID 的 数量 ， 直 接 使 用 如 下 代码 
即 可 。 


1. // 统 计 边 中 源 ID 大 于 目的 ID 的 数量 





2 val filteredSrcDstId: VertexId = graph.edges.filter(e => e.srcId > 
e.dstI1Id) .count 
3 System.out .println ("图 中 边 的 源 ID 大 于 目的 ID 的 数量 是 : "+ filteredSrcDstId) 


在 IDEA 中 运行 代码 结果 如 下 。 


1. Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults. 
properties 

2. 17/02/22 12:33:21 INFO SparkContext: Running Spark version 7.1.0 

< 

4. 17/02/22 12:33:28 INFO TaskSetManager: Finished task 0.0 in stage 3.0 (TID 
24) in 113 ms on localhost (executor driver) (8/8) 

5. 17/02/22 12:33:28 INFO TaskSchedulerImp1: Removed TaskSet 3.0, whose tasks 
have all completed, from pool 

6. 17/02/22 12:33:28 INFO DAGScheduler: ResultStage 3 (count at Graphx_ 
VerticesEdgesTriplets.scala:62) finished in 0.114 s 

7. 17/02/22 12:33:28 INFO DAGScheduler: Job 1 finished: count at Graphx_ 
VerticesEdgesTriplets.scala:62, took 0.132638 s 


8. 图 中 边 的 源 ID 大 于 目的 ID 的 数量 是 : TT 


计算 结果 表明 只 有 一 个 源 ID 大 于 目的 ID 的 情况 , 此 时 我 们 看 一 下 前 面 生成 的 图 18-12。 

从 图 18-12 中 可 以 发 现 只 有 5 大 于 3， 其 他 都 是 源 ID 小 于 目的 Jp。 其实 , 对 构建 出 来 的 
图 (Graph) 除了 可 以 对 其 顶点 〈Vertices) 和 边 〈edges) 进行 操作 外 ， 还 可 以 对 它 的 三 元 组 
(triplets) 进行 操作 。 当 图 被 构建 出 来 的 时 候 ， 其 本 身 就 有 3 个 非常 重要 的 属性 ， 源 码 如 下 
所 示 。 


1. abstract class Graph[VD: ClassTag, ED: ClassTag] protected () extends 
Serializable { 





2 
- /** 

4. * RDD 包含 顶点 以 及 顶点 相关 的 属性 
5 

6 


关 


。 @note 顶点 ID 是 唯一 的 。 


2 * @return 返回 图 中 包含 顶点 的 RDD 
1 辐 二 

9. val vertices: VertexRDDI[VD] 
10 


2 TT 
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I /** 

12. ”* RDD 包含 边 以 及 边 相关 的 属性 。RDD 中 包含 源 ID 和 目的 ID 以 及 边 的 数据 
了 

14. ”* @return RDD 包含 图 中 的 边 

5 

16. * @see `Edge” 边 的 类 型 

se * @see `Graph#triplets 获取 得 到 一 个 RDPD，RDD 包含 所 有 的 边 以 及 连同 边 的 顶点 数据 
18. * 

19. val edges: EdgeRDD[ED] 

0: 

过 

2 

a 矶 大 林 

24. ”* RDD 包 含 边 的 三 元 组 ， 边 连同 相 邻 的 顶点 的 数据 

25. ”* 如 果 不 需要 项 点 数据 ， 调 用 方 应 该 使 用 [edges] 

26. ”* 适用 于 需要 边 和 相 邻 顶点 ID 的 数据 

2 区 

28.  ”* Q@return 返回 RDD 包含 边 的 三 元 组 

9 

30. ”* @example 例子 : 此 操作 可 用 于 评估 图 形 着 色 ， 用 于 检查 两 个 顶点 是 否 为 不 同 的 颜色 
31. we 


Ee * type Color = Int 
3 *val graph: Graph [Color, Int] = GraphLoader .edgeListFile ("hdfs://file. 


*tsv") 

34. *val numInvalid = graph.triplets.map(e => if (e.src.data ==e.dst.data) 
*] else 0) .sum 

355 内， 

36- */ 


六 val triplets: RDD[EdgeTriplet [VD, ED]] 
接 下 来 我 们 查看 一 下 triplets。 
: 姑 val resTriplets: RDD[EdgeTriplet[ (String, String), String]] = graph. 
triplets 
为 什么 EdgeTriplet 的 类 型 是 EdgeTriplet[(String, String),String] 呢 ?源码 如 下 。 
/** 
* 边 三 元 组 表示 一 个 边 ， 以 及 它 相 邻 项 点 的 顶点 属性 
水 


* etparam VD 顶点 属性 的 类 型 
* @tparam ED 边 属性 的 类 型 
*/ 
class EdgeTriplet [VD, ED] extends Edge[ED] { 
从 源码 中 可 以 看 出 第 一 个 元 素 是 顶点 属性 类 型 , 在 我 们 的 例子 中 就 是 (name, occupation ) 
的 元 组 ， 第 二 个 元 素 是 边 属性 类 型 。 因 为 其 数量 比较 少 ， 接 下 来 进行 collect 操作 。 


1. val resTriplets: RDD[EdgeTriplet[(String， String), String]] = graph. 


OANAoODPp 

















triplets 
2 for (elem <- resTriplets.collect()) { 
个 println ("三 元 组 : "+ elem) 
4. } 
在 IDEA 中 运行 代码 结果 如 下 。 


a 
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1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 
2. 17/02/22 13:23:23 INFO SparkContext: Running Spark version 7.1.0 


4. 17/02/22 13:23:29 INFO ShuffleBlockFetcherIterator: Started 0 remote 
fetches in 0 ms 





5.。 三 元 组 : ((3, (rxin,student)), (7, (jgonzal,postdoc)),collab) 
6 元 组 : ((5, (franklin,prof)), (3, (rxin,student)),advisor) 
2 元 组 : ((2, (istoica,prof)), (5, (franklin, prof)),colleague) 
8. 三 元 组 : ((5, (franklin,prof)), (7, (jgonzal,postdoc)) ,pi) 

下 面 看 一 下 顶点 : 

i for (elem <- graph.vertices.collect()) { 

之 Println("graph.vertices: "+ elem) 

3. 中 


在 IDEA 中 运行 代码 结果 如 下 。 


1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 
2. 17/02/22 13:26:31 INFO SparkContext: Running Spark version 7.1.0 


4. 17/02/22 13:26:37 INFO DAGScheduler: Job 3 finished: collect at Graphx_ 
VerticesEdgesTriplets.scala:69, took 0.079005 s 


5. graph.vertices: (2, (istoica, prof)) 

6. graph.vertices: (3, (rxin, student)) 

7. graph.vertices: (5, (franklin, prof)) 

8. graph.vertices: (7, (jgonzal, postdoc)) 

也 可 以 直接 查看 graph 边 的 情况 。 

“ for (elem <- graph.edges.collect()) { 

人 println ("graph.edges: "+ elem) 

3 k 

在 IDEA 中 运行 代码 结果 如 下 。 

1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 


properties 
2. 17/02/22 13:26:31 INFO SparkContext: Running Spark version 7.1.0 


4. 17/02/22 13:26:37 INFO DAGScheduler: Job 4 finished: collect at EdgeRDDImp1l. 
scala:50, took 0.082806 s 


5. graph.edges: Edge (3,7,collab) 

6. graph.edges: Edge (5, 3,advisor) 
7. graph.edges: Edge (2,5,colleague) 
8. graph.edges: Edge (5,7,pi) 


本 节 例 子 较 简 单 ， 完 整 的 代码 如 例 18-1 所 示 。 
【 例 18-1】Vertices、edges、triplets 操作 。 


1. package com.dt.spark.graphx 

2. import org.apache.spark.SparkConf 

3. import org.apache.spark.sql.SparkSession 
4. import org.apache.spark._ 


和 
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.774 


import org-apache .spark-graphx- 


// 在 图 计算 的 例子 运行 中 需要 导入 RDD 的 包 


import org.apache.spark.rdd.RDD 


object Graphx_ VerticesEdgesTriplets { 
def main (args: Array[String]) { 


Var masterUr1 = "local[8]" 
// 默 认 程 序 运 行 在 本 地 Local 模式 中 ， 主 要 用 于 学 习 和 测试 
/** 


* 当 我 们 把 程序 打包 运行 在 集群 上 的 时 候 ， 一 般 都 会 传 入 集群 的 URI 信息 ， 这 里 假设 传 入 
* 参数 ， 第 一 个 参数 只 传 入 Spark 集群 的 URL， 第 二 个 参数 传 入 的 是 数据 的 地 址 信息 
se 


if (args.length > 0) { 
masterUrl = args (0) 


} 


/冰冰 
* 创 建 Spark 会 话 上 下 文 SparkSession 和 集群 上 下 文 SparkContext， 在 SparkConf 
*# 中 可 以 进行 各 种 依赖 和 参数 的 设置 等 ,可 以 通过 SparkSubmit 脚本 的 help 看 设置 信息 ， 
* 其 中 SparkSession 统一 了 Spark SQL 运行 的 不 同 环境 
可 


val sparkConf = new SparkConf () .setMaster (masterUr1) .setRppName 
("Graphx VerticesEdgesTriplets") 


/水 水 
* SparkSession 统一 了 Spark SQL 执行 时 的 不 同 的 上 下 文 环 境 。 也 就 是 说 , Spark SQL 
* 无 论 运行 在 哪 种 环境 下 ， 我 们 都 可 以 只 使 用 SparkSession 这 样 一 个 统一 的 编程 入 口 来 
* 处 理 DataFrame 和 DataSet 编程 ， 不 需要 关注 底层 是 否 有 Hive 等 


val spark = SparkSession 
.builder() 
.config(sparkConf) 
.getOrCreate () 


val sc = spark.sparkContext 
// 从 SparkSession 获得 的 上 下 文 ， 这 是 因为 我 们 读 原生 文件 的 时 候 或 者 实现 一 些 
//Spark SQL 目前 还 不 支持 的 功能 的 时 候 ， 需 要 使 用 SparkContext 


// 创 建 顶点 的 RDD 

val users: RDD[(VertexId， (String, String))] = 
sc.parallelize (Array ((3L, ("rxin", "student")), (7L, ("jgonzal", 
"postdoc")), (SE, ("Eranklin", “proE™)}. 2P ("Lstoica”, "DEoEM)))) 


// 创 建 边 的 RDD 
val relationships: RDD[Edge[String]] = 
sc.parallelize (Array (Edge (3L, 7L, "collab"), Edge (5L, 3L, "advisor"), 
Edge (2L, 5L, "colleague"), Edge(5L, 7L, "pi"))) 


// 定 义 案例 中 顶点 的 默认 使 用 者 ， 在 缺失 使 用 者 的 情况 下 ， 图 可 以 建立 关联 

val defaultUser = ("John Doe", "Missing") 

// 初 始 化 图 

val graph: Graph[ (String, String), String] = Graph (users, relationships, 
defaultUser) 
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// 统 计 图 中 职业 是 博士 后 的 节点 
val filteredVertices: VertexId = graph.vertices.filter { case (id, (name, 


pos)) => pos == "postdoc™" }.count 


System.out .println ("图 中 职业 是 博士 后 的 节点 数量 计数 为 : "+ filteredVertices) 


// 统 计 图 中 边 的 源 ID 大 于 目的 ID 的 数量 
val filteredSrcDstId: VertexId = graph.edges.filter(e => e.srcId > 
e.dstId) .count 


System.out .println (" 图 中 边 的 源 ID 大 于 目的 ID 的 数量 是 : "+filteredSrcDstId) 


val resTriplets: RDD[EdgeTriplet[ (String, String), String]] = graph. 
triplets 
for (elem <- resTriplets.collect()) { 
println(" 三 元 组 : ”+ elem) 
} 


for (elem <- graph.vertices.collect()) { 
println ("graph.vertices: "+ elem) 


上 
for (elem <- graph.edges.collect()) { 


println ("graph.edges: "+ elem) 


18.7 数据 加 载 成 为 Graph 并 进行 操作 实战 


- 般 情况 下 ， 数 据 都 在 文件 中 如 在 日 志文 件 中 ) ，Spark GraphX 提供 了 非常 方便 的 从 
文件 中 读 取 数据 来 构建 Graph 的 接口 ， 这 个 接口 方法 是 edgeListFile， 位 于 GraphLoader 这 个 


object 中 。 

Pe 
* 提 供 工具 从 文件 加 载 至 [Graph] s 

2 本 人 

区 

4. object GraphLoader extends Logging { 

汪 

(0 

* 从 格式 化 文件 中 的 边 表 加 载 一 个 图 ， 其 中 每 行 包含 两 个 整数 : 源 ID 和 目标 ID， 由 # 开 头 的 
* 就 跳 行 

8. 来 

加 * 通 过 设置 canonicalorientation 为 true， 边 可 以 自动 面向 正方 向 ( 源 ID 小 于 目 

10. ”* 标 ID) 

二 家 

刘 2 * @example 下 列 的 格式 加 载 文件 : 

13. 

14. * # Comment Line 

A # # Source Id <\t> Target Id 


We 
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16. 
训 启 
由 
9 
pA 
2 
人 
2 时 
24. 
2 
265 
局 
28 . 


一 FF 
co ~ IN 


@param sc SparkContext 

Q@param 文件 路 径 ( 如 /home/data/file 或 者 hdfs://file) 

Q@param canonicalOrientation 是 否 在 正方 向 

Q@param numEdgePartitions 边 RDD 的 分 区 数 ， 设 置 为 -1， 将 使 用 默认 并 行 度 
Q@param edgeStorageLevel 边 分 区 的 存储 级 别 

@param vertexStorageLevel 顶 分 区 的 存储 级 别 


关 六 六 美 美 美美 美美 美美 关 


A 


29. def edgeListFile( 


30. 
SI 
2 
335 
34. 
SS 
36 . 
Ss { 
385 
3 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48. 
49. 
S50 
Si. 
GF 
53< 
54. 
SD: 
56. 
Te 
58- 
595 
60 . 
61. 
62. 
G63 
64. 
65。 


66 . 
而 了 
68. 


69. 
0 


1 


sc: SparkContext, 

path: String, 

canonicalOrientation: Boolean = false, 

numEdgePartitions: Int = -1, 

edgeStorageLevel: StorageLevel = StorageLevel .MEMORY ONLY, 

vertexStorageLevel: StorageLevel = StorageLevel .MEMORY ONLY) 
: Graphl[Int, Int] = 


val startTime = System.currentTimeMillis 


// 将 边 数据 表 直 接 解 析 到 边 分 区 
val lines = 
if (numEdgePartitions > 0) { 
sc.textFile (path, numEdgePartitions) .coalesce (numEdgePartitions) 
} else { 
sc.textFile (path) 
} 
val edges = lines.mapPartitionsWithIndex { (pid, iter) => 
val builder = new EdgePartitionBuilder[Int, Int] 
iter.foreach { line => 
if (!line.isEmpty && line(0) != '#"') { 
val lineArray = line.split("\\s+") 
if (lineArray.length < 2) { 
throw new IllegalArgumentException("Invalid line: " + line) 
于 
val srcId = lineArray (0) .toLong 
val dstId = lineArray (1) .toLong 
if (canonicalOrientation && srcId > dstId) { 
builder.add(dstId, srcId, 1) 
} else { 
builder.add(srcId, dstId, 1) 
3; 
} 
} 
Iterator ( (pid, builder.toEdgePartition)) 
} .persist (edgeStorageLevel) .setName ("GraphLoader .edgeListFile - edges 
(ss)" -format (path)) 
edqges -count () 


logInfo("It took %d ms to load the edges" .format (System. currentTimeMil1is 
- startTime)) 


GraphImpl .fromEdgePartitions (edges, defaultVertexAttr =]1,edgeStorageLevel= 
edgeStorageLevel, 


第 18 章 ”使 用 Spark GraphX 实现 婚恋 社交 网 络 多 维度 分 析 案 例 








71 vertexStorageLevel = vertexStorageLevel) 
72. } // edgeListFile 结束 


在 源码 中 我 们 需要 注意 的 是 ，edgeListFile 的 第 三 个 参数 canonicalOrientation， 如 果 是 有 
方向 的 , 即 canonicalOrientation 的 值 设置 为 tue, 那么 只 有 在 源 顶 点 的 IJD 大 于 目标 顶点 的 了 
的 时 候 才 算 一 个 。 

我 们 发 现 ， 在 从 文件 中 构建 Graph 的 时 候 ，GraphX 默认 把 顶点 和 边 的 属性 都 设置 为 1， 
同时 ， 顶 点 与 顶点 之 间 的 分 隔 可 以 是 空格 ， 也 可 以 是 tab 键 。 当 然 ， 在 源码 中 发 现 注 释 的 时 
候 会 直接 略 过 ， 关 于 minEdgePartitions 的 值 ， 默 认 设 置 为 1，edgeStorageLevel 和 
VertexStorageLevel 默认 都 设置 为 MEMORY _ONLY 的 方式 ， 这 些 参数 都 可 以 根据 需要 进行 

本 节 测 试 使 用 Google Contest 提供 的 数据 ， 下 载 地 址 为 http://snap.stanford.edu/data/web- 
Google.html， 下 载 web-Google.txt.gz 文件 到 本 地 ， 在 IDEA 中 新 建 一 个 文件 夹 data，data 和 
src 是 同一 级 的 目录 ， 然 后 在 data 日 录 下 建立 web-Google 子 日 录 ， 将 web-Google.txt.gz 文件 
解压 缩 以 后 保存 至 相对 路 径 的 datavweb-Google 目录 。 如 果 具 备 hdfs 环境 ， 也 可 以 将 
web-Google.txt 文件 上 传 至 hdfs 分 布 式 文件 系统 中 ， 在 Spark Graph 中 导入 加 载 hdfs 系统 中 
的 web-Google.txt 文件 。 这 里 我 们 加 载 本 地 的 web-Google.txt 文件 。 

打开 web-Google.txt 文本 文件 ， 其 内 容 显 示 如 下 ， 第 1 行 至 第 4 行 是 注释 部 分 ， 每 行文 
件 以 “#” 开 头 ，Spark Graph 图 计算 导入 文件 时 会 自动 跳 过 注释 行 。web-Google.txt 文件 中 ， 
数据 部 分 每 行内 容 的 第 一 列 是 源 网 页 的 ID， 第 二 列 是 目标 网 页 的 JP。 


1. # 有 向 图 (节点 每 个 无 序 对 保存 一 次 ) : web-Google .txt 
2. # 从 Google programming contest 下 载 的 图 书籍 ，2002 
3. 间 节点 数 : 875713 边 数 : 5105039 

4. 音源 节点 Id ”目标 节点 Id 

520 11342 

6. 1 824020 

ey 867923 

:i 891835 

9. 11342 0 

10. 11342 27469 

11. 21342 38716 

2 309564 

3 T3422 322178 

14. 11342 387543 

15. T1342 427436 

16. 11342 538214 

:RN 


在 IDEA 中 新 建 一 个 object 类 Graphx webGoogle， 导 入 Spark Graph 的 相关 JAR 包 。 


1. import org.apache.spark. 
2. import org.apache.spark.graphx._ 
3. import org.apache.spark.rdd.RDD 


然后 加 载 本 地 web-Google.txt 文件 。 
1. // 数 据 存 放 的 目录 


a 
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2 var dataPath = "data/web-Google/" 

< 全 val graphFromFile: Graph[PartitionID，PartitionID] = GraphLoader. 
edgeListFilel(sc, dataPath + "web-Google.txt") 

4. while (true) {} 


为 了 查看 Spark Graph 运行 时 Spark 系统 资源 的 使 用 情况 ， 在 IDEA 中 的 代码 中 加 一 个 
While 循环 语句 ， 程 序 就 会 一 直 运 行 , 我 们 可 以 在 浏览 器 中 打开 Spark 的 WebUI 控制 台 页 面 
Chttp:/127.0.0.1:4040/jobs/) 查看 Spark 的 资源 使 用 情况 。 

点 击 Stages 标题 栏 , 从 图 18-13 中 可 以 看 到 Spark 有 3 个 任务 在 运行 , 即 对 应 3 个 分 区 。 


EF © |® .00 tom/waees mj 





2 Jobs | Stages | storage Environment Executors SQL Graphx_webGoogle application UI 


Stages for All Jobs 


Completed Stages: 1 
Completed Stages (1) 


Stage ld » Description Submitted Duratlon Tasks: Succeeded/Total Input Output Shuffle Read Shuffle Write 
0 count at GraphLoader scala'94 "details 2017/02/24 13:23:10 13s 720Me 


图 18-13 ”任务 运行 图 


继续 点 击 count at GraphLoader.scala:94， 进 入 以 下 页 面 ， 可 以 看 到 3 个 任务 在 执行 ，3 个 
输入 的 数据 分 别 32.1MB、32.1MB、7.9MB， 如 图 18-14 所 示 。 











肥 项 信 
» DAG Visualization 
» Show Additional Metrics 
» Event Timeline 
Summary Metrics for 3 Completed Tasks 
Metric Min 25th percentile Median 75th percentile Max 
Duration 10s 10s 12s 12s 12s 
GcTime 3s 3s 45 4s 45 
Input Size / Records 7.9 MB 1/555050 7.9 MB /555050 32.1 MB / 2253331 32.1 MB / 2296662 32.1 MB /2296662 
~Aggregated Metrics by Executor 
ExeeutoriD 。 。 Address Task Time TotalTasks FailedTasks KilledTasks Succeeded Tasks 。 Input Size /Records 
dmver 192.168.93.151485 35s 3 0 0 3 72.0 MB /5105043 
Tasks (3) 
Index 。 ID Attempt Status Locallty Level Executor ID/ Host ”Launch Time Duration GC Time Input Size1Records Errors 
0 0 0 SUCCESS PROCESS LOCAL driver/localhost 。 2017/02/24 13:23:10 12s 4s 32.1 MB / 2296662 
1 1 0 SUCCESS PROCESS LOCAL driver/localhost 2017/02/2413:23:10 12s 4s 32.1 MB /2253331 
区 2 0 SUCCESS PROCESS LOCAL driver/localhost 2017/02/2413:23:10 10s 3s 7.9 MB /555050 
图 18-14 任务 执行 情况 
入 a 
点 击 Storage 标题 栏 ， 从 图 中 可 以 验证 Spark 图 计算 加 载 文件 时 就 有 3 个 分 区 。 当 


web-Google.txt 数据 加 载 完成 后 ， 整 个 web-Google.txt 文本 数据 就 缓存 保存 在 内 存 中 。 在 本 地 
模式 下 运行 Spark， 默 认 的 分 区 块 是 32MB， 而 web-Google.txt 文本 的 大 小 是 73MB， 因 此 按 
照 分 区 ， 块 被 切 成 3 个 分 区 ， 如 图 18-15 所 示 。 


“Ti 
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€ 3 C {O00 tre /sd 人 从 
oR Jobs Stages DY Slor3ge | Environment Executors SQL Graphx_webGoogle application UI 


RDD Storage Info for GraphLoaderedgeListFile - edges (data/web-Google/web- 
Google.txt) 


Storage Level: Memory Deserialzed 1x Replicated 
Cached Partitions: 3 

Total Partitions: 3 

Memory Size: 130.9 MB 

Disk Size: 009 


Data Distribution on 1 Executors 


Host Memory Usage Disk Usage 
192.168.93.1.61485 130.9 MB (506.3 MB Remaining) 00B 

3 Partitions 

Block Name ~ Storage Level Size in Memory Size on Disk Executors 
rdd_2.0 Memory Deserlalzed 1x Replicated S21MB 00B 192.168.93.1:61485 
rdd_2_1 Memory Deseriallzed 1x Replicated 592MB 008 192.168.93.161485 
rdd 22 Memory Deserialized 1x Reolicated 196MB 008 192.169.93,1:61485 


图 18-15 图 的 存储 分 区 


在 IDEA 代码 中 , 将 edgeListFile 的 参数 minEdgePartitions 设置 为 4， 即 定义 分 区 数 为 4。 

1. // 数 据 存放 的 目录 

和 var dataPath = "data/web-Google/" 

3 val graphFromFile: Graph[PartitionID，PartitionID] = GraphLoader. 
edgeListFile(sc, dataPath + "web-Google.txt",numEdgePartitions =4 ) 

在 浏览 器 中 打开 Spark 的 WebUI 控制 台 页 面 (http://127.0.0.1:4040/jobs/) ， 查 看 Spark 

将 Graph 设置 为 4 个 分 区 的 资源 使 用 情况 。 
点 击 Stages 标题 栏 , 从 图 18-16 中 可 以 看 到 Spark 有 4 个 任务 在 运行 , 即 对 应 4 个 分 区 。 


€ (ORLANT 


a 全 | 1 
Sak: a Jobs | Stages | Storage Environment Executors SQL Graphx_webGoogle application UI 

Stages for All Jobs 

Completed Stages: 1 

Completed Stages (1) 

Stage ld » Description Submitted Duration Tasks: Succeeded/Total Input Output Shuffie Read Shuffle Write 

0 count at GraphLoader scala:94 *detals 2017/02/24 13:40:44 8s 72 0 Me 


图 18-16 任务 执行 


继续 点 击 count at GraphLoader.scala:94， 进 入 以 下 页 面 ， 可 以 看 到 4 个 任务 在 执行 ， 输 
入 的 4 个 数据 均 为 18.0MB， 如 图 18-17 所 示 。 

点 击 Storage 标题 栏 ， 从 图 中 可 以 验证 Spark 图 计算 加 载 文件 时 根据 我 们 的 设置 ， 切 
分 成 了 4 个 分 区 。 将 GraphLoader.edgeListFile - edges 数据 缓存 保存 在 内 存 中 ， 如 图 18-18 
所 示 。 


有 
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< elore ELE 
» Show Adllonal Metrics 
» Event Timeline 
Summary Metrics for 4 Completed Tasks 
Metric Min 25th percentile Median 75th percentile Max 
Duration 7s 7s 8s Bs 8s 
GC Time 3s 3s 3s 3s 3s 
Input Size / Records 18.0 MB / 1263638 18.0 MB / 1264479 18.0 MB 11285736 18.0 MB/ 1291190 18.0 MB/ 1291190 
™ Aggregated Metrics by Executor 
ExecutorIlD* Address Task Time TotalTasks FailedTasks KilledTasks Succeeded Tasks InputSize/Records 
driver 192.168.93.1:58142 30s 4 0 0 4 72.0 MB /5105043 
Tasks (4) 
Index 。 ID Attempt Status Locality Level Executor ID /Host ”Launch Time Duration GC Time InputSize/Records Errors 
0 0 0 SUCCESS PROCESS_LOCAL driver/localhost 2017/02/24 13:40:44 8s 3s 180MB11291190 
1 1 0 SUCCESS PROCESS LOCAL driver/localhost 2017/02/24 13:40.44 ”75 3s 18.0 MB / 1285736 
2 2 0 SUCCESS PROCESS LOCAL driver/localhost 2017/02/2413:40:44 7s 3s 18.0 MB / 1263638 
3 3 0 SUCCESS PROCESS LOCAL driver/localhost 2017/02/2413:40:44 8s 3s 18.0 MB / 1264479 
图 18-17 任务 执行 情况 
€ F © [@ 127.0.0 414100 rroraee /rid /Ti EE 


RDD Storage Info for GraphLoader.edgeListFile - edges (data/web-Google/web- 
Google.txt) 


Storage Level: Memory Deserlallzed 1x Repllcated 
Cached Partitions: 4 

Total Partitions: 4 

Memory Slze: 137 2 MB 

Disk Size: 0.06B 


Data Distribution on 1 Executors 


Host Memory Usage Disk Usage 
192.168.93.1:58142 137.2 MB (499.9 MB Remaining) 00B 
4Partitions 

Block Name ~ Storage Level Size in Memory Size on Disk Executors 

rd 30 Memory Deserialized 1x Replicated 28.7MB 008 192.168,93.1.58142 
rdd3 1 Memory Deserialized 1x Replicated 28.8 MB 00B 192.168,93.1.58142 
rdd 32 Memory Deserialized 1x Replicated 394 MB 00B 192.168.93.1:58142 
rdd 3 3 Memory Deserialized 1x Replicated 403MB 00B 192.168.93.1:58142 


图 18-18 图 的 存储 分 区 


然后 统计 一 下 文本 文件 web-Google.txt 中 包含 多 少 个 顶点 。 

1. println("graphFromFile.vertices.count: "+graphFromFile.vertices.count()) 
在 IDEA 中 运行 代码 ， 结 果 如 下 。 

1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 


properties 
2. 17/02/24 14:09:42 INFO SparkContext: Running Spark version 7.1.0 
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4. 17/02/24 14:09:59 INFO DAGScheduler: Job 1 finished: reduce at VertexRDDImp1l. 
scala:90, took 3.212063 s 


5. graphFromFile.vertices.count: 875713 


从 以 上 的 运行 结果 可 以 看 出 ， 加 载 的 web-Googeltxt 文件 ， 其 构建 的 图 数据 中 共 包 含 
875713 个 顶点 。 然后 再 统计 一 下 图 中 共 有 多 少 条 边 


1. println("graphFromFile.edges.count: "+graphFromFile.edges.count() ) 


在 IDEA 中 运行 代码 ， 结 果 如 下 。 


1. Using Spark's default 1og4j profile: org/apache/spark/1og4j-dqefaults . 
properties 
2. 17/02/24 14:14:45 INFO SparkContext: Running Spark version 7.1.0 


4. 17/02/24 14:15:20 INFO DAGScheduler: ResultStage 3 (reduce at EdgeRDDImp1l. 
scala:90) finished in 0.033 s 

5. graphFromFile.edges.count: 5105039 

6. 17/02/2414:15:20 INFODAGScheduler: Job 2 finished: reduce at EdgeRDDImp]. 
scala:90, took 0.049847 s 


从 以 上 的 运行 结果 可 以 看 出 ， 加 载 的 web-Google.txt 文件 ， 其 构建 的 图 数据 中 共 包 含 
5 105 039 条 边 。 可 以 看 出 ，web-Google.txt 文件 大 小 非常 理想 ， 很 适合 读者 在 本 地 环境 中 测 
试 学 习 。 

本 节 完 整 的 代码 如 例 18-2 所 示 。 

【 例 18-2】web-Google 文件 操作 。 





package com.dt.spark.graphx 

import org.apache.spark.SparkConf 

import org.apache.spark.graphx.{Graph, GraphLoader, PartitionID} 
import org.apache.spark.sql.SparkSession 


:1 
2 
| 
4 
5 
6. object Graphx webGoogle { 

EE def main (args: RARrray[Stringl]) { 
8 Var masterUr1L = "local[8]" 

9 if (args.length > 0) { 

10 masterUrl = args (0) 

11 


} 


‘es val sparkConf = new SparkConf () .setMaster (masterUr]1) .setAppName ("Graphx 
webGoogle") 

3435 val spark = SparkSession 

Ta .builder() 

可 有 -Config(sparkConf) 

365 -getOrCreate () 

折合 val sc = spark.sparkContext 

TB // 数 据 存放 的 目录 

19 . var dataPath = "data/web-Google/" 

20. val graphFromFile: Graph[PartitionID， PartitionID] = GraphLoader. 


edgeListFilel(sc, dataPath + "web-Google.txt", numEdgePartitions = 4) 
2 // 统 计 项 点 的 数量 


2 println ("graphFromFile.vertices.count: "+graphFromFile.vertices. 
count () ) 

23. // 统 计 边 的 数量 

24. println("graphFromFile.edges.count: " + graphFromFile.edges. 


2 Te 
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count () ) 
5 while (true) {} 
26. 上 
A 


18.8 图 操作 之 Property Operators 实战 





本 节 专 注 于 集群 上 Property Operator 的 内 容 ， 其 中 比较 重要 的 是 mapVertices、mapEdges 
和 mapTriplets， 即 对 顶点 进行 map、 对 边 进行 map、 对 Triplets 进行 map。 在 Graph 中 ， 其 
方法 分 别 如 下 所 示 。 


:Ps 
2 * 使 用 map 函数 转换 图 中 的 每 个 顶点 的 属性 
< 人 be 
* @note 新 的 图 具有 相同 的 结构 ， 底 层 结构 可 重用 
SB * @param 函数 从 顶点 对 象 转换 为 新 项 点 值 
本 本 * 
全 * @tparam VD2 新 顶点 的 类 型 
8. 六 
9. * @example 可 以 使 用 这 个 操作 来 改变 项 点 值 ， 初 始 化 算法 从 一 种 类 型 到 另 一 种 类 型 
10. wa 
和 * val rawGraph: Graph[(), ()] = Graph.textFile("hdfs://file") 
和 * val root = 42 
3 *# Var bfsGraph = rawGraph.mapVertices[Int] ((vid, data) => if (vid == 
* root) 0 else Math.MaxValue) 
| > 
| * 
6. */ 
;肝病 def mapVertices[VD2: ClassTag] (map: (VertexId, VD) => VD2) 
8 (implicit eq: VD =:= VD2 = null): Graph[VD2, ED] 
mapEdges 的 方法 如 下 。 
/** 





2. * 使 用 map 函数 转换 图 中 的 每 条 边 的 属性 。map 函数 不 是 转换 相 邻 边 的 项 点 值 。 如 果 需 要 顶 
* 点 值 ， 须 使 用 maptriplets 


区 人 

4. * @note 图 不 会 更 改 ， 新 的 图 具有 相同 结构 ， 且 底层 结构 可 以 复 用 
: * 

6 * Q@param map 函数 将 边 对 象 映射 到 新 的 边 值 

a be 

a * @tparam ED2 新 的 边 的 数据 类 型 

os 

oR * Qexample 函数 可 用 于 初始 化 边 的 属性 

和 

二 2 */ 

13. def mapEdges [ED2: ClassTag] (map: Edge[ED] => ED2): Graph[VD，ED2] = { 
E mapEdges ( (pid, iter) => iter.map (map)) 

a } 


mapTriplets 的 方法 如 下 。 


“Is 
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4 /** 
* 使 用 map 函数 转换 每 条 边 的 属性 ， 使 用 函数 转换 相 邻 顶点 属性 。 如 果 不 需要 相 邻 顶点 值 ， 
* 考 虑 使 用 mapedges 

* @note 并 没有 改变 图 或 修改 此 图 的 值 ， 因 此 可 以 重用 底层 索引 结构 

六 六 

BD * Q@param map 函数 从 边 的 对 象 转换 到 新 的 边 值 

6. * 

3 * @tparam ED2 新 的 边 的 类 型 

8. 号 

9 * @example 此 函数 可 用 于 初始 化 边 的 属性 ， 属 性 基于 与 每 个 项 点 相关 联 的 属性 

10. st 

Eh * val rawGraph: Graphl[Int, Int] = someLoadFunction() 

2 * val graph = rawGraph.mapTriplets[Int] ( edge => 

;区 启 * edge.src.data - edge.dst.data) 

14. > 

i 

16. */ 


Lk def mapTriplets[ED2: ClassTag] (map: EdgeTriplet[VD, ED] => ED2): 
Graph[VD，ED2] = { 


185 mapTriplets ((pid，iter) => iter.map (map)，TripletFields.R11) 
195 

下 面 看 一 下 Graph 实例 中 的 10 个 元 素 的 具体 值 。 

se for (elem <- graphFromFile.vertices.take(10)) { 

迷 Pintln("graphFromFile.vertices: "+ elem) 

光世 } 


在 IDEA 中 运行 代码 ， 结 果 如 下 。 
1. Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults . 
properties 


2. 17/02/24 20:41:17 INFO SparkContext: Running Spark version 7.1.0 
2 
4. 17/02/24 20:41:35 INFO DAGScheduler: Job 3 finished: take at Graphx_ 
webGoogle.scala:27, took 0.456157 s 
5. graphFromFile.vertices: (185012,1) 
6. graphFromFile.vertices: (612052,1) 
学 graphFromFile.vertices: (354796,1) 
8. graphFromFile.vertices: (182316,1) 
9. graphFromFile.vertices: (199516,1) 
10. graphFromFile.vertices: (627804,1) 
11. graphFromFile.vertices: ETOTODEY 
12. graphFromFile.vertices: (3072487.1) 
13. graphFromFile.vertices: (512760,1) 
14. graphFromFile.vertices: (386896,1) 
可 以 看 到 这 10 个 顶点 元 素 中 每 个 顶点 元 素 的 属性 值 都 是 1， 这 是 源码 设 定 的 。 下 面 我 们 
把 每 个 顶点 的 元 素 的 值 都 变 成 2， 当 然 这 样 做 没有 实际 意义 ， 只 是 试验 用 途 。 
EL val tmpGraph: Graph[PartitionID， PartitionID] =graphFromFile.map 
Vertices((vid, attr) => attr.toInt*2) 
2 for (elem <- tmpGraph.vertices.take(10)) { 
3 println("tmpGraph.vertices: "+ elem) 
4 


2 TO3s 
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在 IDEA 中 运行 代码 ， 结 果 如 下 。 


Ls 


心 w 


Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults . 
properties 

17/02/24 20:58:18 INFO SparkContext: Running Spark version 7.1.0 
17/02/24 20:58:35 INFO DAGScheduler: Job 4 finished: take at Graphx 
webGoogle.scala:32, took 0.403449 s 


tmpGraph .vertices: (185012,2) 
tmpGraph .vertices: (612052,2) 
tmpGraph .vertices: (354796, 2) 
tmpGraph .vertices: (182316,2) 
tmpGraph .vertices: (L9951672) 
. tmpGraph .vertices: (627804,2) 
. tmpGraph .vertices: {L7079252) 
. tmpGraph.vertices: (307248,2) 
. tmpGraph .vertices: (512760,2) 
. tmpGraph.vertices: (386896,2) 


18.9 图 操作 之 Structural Operators 实战 


Spark GraphX 中 属于 Structural Operators 的 操作 主要 有 reverse、subgraph、mask、 
groupEdges 等 儿 种 函数 ， 它 们 在 Graph 中 的 源码 分 别 如 下 所 示 。 
reverse 函数 的 源码 如 下 。 


5 攻 


2 
Se 


/** 


* 反 转 图 中 的 所 有 边 。 如 果 此 图 包含 从 a 到 b 的 边 ， 则 返回 图 包含 一 个 从 b 到 a 的 边 
sh 
def reverse: Graph[VD, ED] 


subgraph 函数 的 源码 如 下 。 


4 WE 

2 * 将 图 限制 为 满足 谓词 的 顶点 和 边 , 获取 达到 条 件 的 子 图 

区 大 于 

4. ee 

i *V'= {v : for all v in V where vpred(v)} 

6 * E' = {(u,v): for all (u,v) in E where epred((u,v)) && vpred(u) && 
*vpred (V) } 

7. ee 

8 

9. * Q@param epred 边 谓词 需要 一 个 三 元 组 ， 如 果 边 保持 在 子 图 中 ， 则 计算 为 真 。 注 意 : 

10. ”* 只 有 两 个 项 点 满足 谓词 的 边 才 被 考虑 

11.  ”* Q@param vpred 顶点 谓词 需要 一 个 顶点 对 象 ， 如 果 项 点 包含 在 子 图 中 ， 则 计算 为 true 

12. 

13.  * Q@return 返回 的 子 图 只 包含 满足 谓词 的 顶点 和 边 

14. */ 

了 有 def subgraph ( 

16. epred: EdgeTriplet[VD, ED] => Boolean = (x => true), 

全 vpred: (VertexId, VD) => Boolean = ((v, d) => true)) 

18 : Graph[VD, ED] 

mask 函数 的 源码 如 下 。 


784: 


第 18 章 使 用 Spark GraphX 实现 婚恋 社交 网 络 多 维度 分 析 案 例 








3 /** 

2 * 限 制图 的 项 点 和 边 在 other， 保 持 图 的 属性 

3 * @param 将 图 投影 到 其 他 图 

4. * @return 返回 一 个 图 对 象 ， 在 当前 图 和 其 他 图 other 中 存在 的 顶点 和 边 ， 从 当前 图 获取 
* 这 些 顶点 和 边 的 数据 


号 od 

6 def mask [VD2: ClassTag, ED2: ClassTag] (other: Graph[VD2，ED2]) : Graph [VD, ED] 

ee 

groupEdges 函数 的 源码 如 下 。 

[i /冰球 

2 * 将 两 个 顶点 之 间 的 多 条 边 合并 为 一 条 边 。 对 于 正确 的 结果 ， 图 必须 使 用 [partitionBy] 
* 进行 分 区 

后 章 

4. * @param merge 通过 用 户 提供 的 关联 函数 复制 边 ， 合 并 边 属 性 

5. 机 

6. * @return 返回 的 图 中 每 条 单 边 具备 ( 源 顶 点 ,目标 项 点 ) 顶点 对 

7 二/ 


有 def groupEdges (merge: (ED, ED) => ED) : Graph[VD，ED] 


上 述 函 数 中 用 得 比较 多 的 是 subGraph。 下 面 看 一 下 如 何 使 用 subGraph。 首 先 来 看 基于 
web-Google.txt 构建 的 Graph 有 多 少 个 顶点 vertices。 


// 数 据 存放 的 目录 

2 var dataPath = "data/web-Google/" 

3 val graphFromFile: Graph[PartitionID，PartitionID] = GraphLoader. 

edgeListFile (sc，dataPath + "web-Google.txt", numEdgePartitions = 4) 

4. // 统 计 顶 点 的 数量 

本 局 println("graphFromFile.vertices.count: "+graphFromFile.vertices. 
count () ) 


在 IDEA 中 运行 代码 ， 图 中 统计 顶点 的 数量 结果 如 下 。 


1. Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults. 
properties 

2. 17/04/09 20:19:08 INFO SparkContext: Running Spark version 2.1.0 

3. 17/04/09 20:19:09 WARN NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 


5. 17/04/09 20:19:29 INFO DAGScheduler: Job 1 finished: reduce at 
VertexRDDImpl .scala:90, took 2.518919 s 


6. graphFromFile.vertices.count: 875713 

7. 17/04/09 20:19:29 INFO SparkContext: Starting job: reduce at EdgeRDDImp1l. 
scala:90 

a 

从 执行 结果 上 可 以 看 出 有 875 713 个 顶点 。 

再 看 一 下 基于 web-Google.txt 构建 的 Graph 有 多 少 条 边 。 

让 // 数 据 存放 的 目录 

2 var dataPath = "data/web-Google/" 

EE 全 val graphFromFile: Graph[PartitionID，PartitionID] = GraphLoader. 


edgeListFilel(sc, dataPath + "web-Google.txt", numEdgePartitions = 4) 


2 Ts 
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5 // 统 计 边 的 数量 
7 println ("graphFromFile.edges.count: "+ graphFromFile.edges.count ()) 


在 IDEA 中 运行 代码 ， 图 中 统计 边 的 数量 结果 如 下 。 


1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 

2. 17/04/09 20:19:08 INFO SparkContext: Running Spark version 2.1.0 

3. 17/04/09 20:19:09 WARN NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 


5. 17/04/09 20:19:29 INFO DAGScheduler: Job 2 finished: reduce at 
EdgeRDDImpl .scala:90, took 0.043325 s 

6. graphFromFile.edges.count: 5105039 

7. 17/04/09 20:19:29 INFO SparkContext: Starting job: take at Graphx 
webGoogle.scala:27 


可 以 发 现 有 5 105 039 条 边 。 
接 下 来 使 用 subGraph, 我 们 首先 只 考虑 第 一 个 参数 ,也 就 是 说 , 第 二 个 参数 使 用 默认 值 ， 
不 参与 判断 。 


属 val subGraph: Graph[PartitionID，PartitionID] =graphFromFile.subgraph 
(epred = e => e.srcId > e.dstId)//e 是 epred 的 别名 

将 = for (elem <- subGraph.edges.take (10)) { 

= println ("subGraph.edges: "+ elem) 

4. } 


在 IDEA 中 运行 代码 ， 验 证 subGraph 的 结果 


1. Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults. 
properties 

2. 17/04/09 20:41:42 INFO SparkContext: Running Spark version 2.1.0 

3 17/04/09 20:41:42 WARN NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 

a 

5. 17/04/09 20:42:00 INFO DAGScheduler: ResultStage 6 (take at Graphx_ 
webGoogle.scala:28) finished in 0.622 s 


6. subGraph.edges: Edge (1122, 429,1) 
7. subGraph.edges: Edge (1300, 606,1) 
8. subGraph.edges: Edge (1436, 409,1) 
9. subGraph.edges: Edge (1509,1401,1) 
10. subGraph.edges: Edge (1513,1406,1) 
11. subGraph.edges: Edge (1624, 827,1) 
12. subGraph.edges: Edge (1705, 693,1) 
13. subGraph.edges: Edge (1825,1717,1) 
14. subGraph.edges: Edge (1985, 827,1) 
15. subGraph.edges: Edge (2135, 600,1) 


16. 17/04/09 20:42:00 INFO DAGScheduler: Job 3 finished: take at Graphx webGoogle. 
scala:28, took 1.703074 s 


ees dest 点 ID 都 是 大 于 目 a ID ) 的 。 


a println("subGraph.vertices.count (): "+ subGraph.vertices.count()) 
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在 IDEA 中 运行 代码 ， 验 证 subGraph 的 顶点 的 个 数 。 
3 Using Spark's default log4] profile: org/apache/spark/1og4j-defaults . 
Properties 


2. 17/04/09 20:48:33 INFO SparkContext: Running Spark version 2.1.0 

3. 17/04/09 20:48:35 WARN NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 

a 


5. 17/04/09 20:49:19 INFO DAGScheduler: Job 4 finished: reduce at VertexRDDImp1l . 
scala:90, took 0.156681 s 

subGraph .vertices.count (): 875713 

17/04/09 20:49:19 INFO SparkContext: Starting job: take at Graphx 
webGoogle.scala:34 


此 时 发 现 顶 点 个 数 依旧 是 875 713 个 ， 和 原 图 一 样 。 
使 用 subGraph.edges.count 看 一 下 subGraph 的 边 的 个 数 。 


6 


I println ("subGraph.edges.count () : "+ subGraph.edges.count ()) 
在 IDEA 中 运行 代码 ， 验 证 一 下 subGraph 的 边 的 个 数 。 


1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 

2. 17/04/09 20:52:23 INFO SparkContext: Running Spark version 2.1.0 

3. 17/04/09 20:52:24 WARN NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 


5. 17/04/09 20:52:49 INFO TaskSetManager: Finished task 0.0 in stage 11.0 
(TID 25) in 1587 ms on localhost (executor driver) (3/4) 

6. subGraph.edges.count () : 2420548 

7. 17/04/09 20:52:49 WARN Executor: 1 block locks were not released by TID = 27: 

8 


从 执行 结果 上 可 以 看 出 ， 此 时 边 的 个 数 是 2 420 548， 而 原来 的 Graph 的 边 的 个 数 是 
5 105 039， 所 以 ， 通 过 过 滤 subGraph 的 边 减 少 了 。 
接 下 来 我 们 也 加 入 对 顶点 过 滤 的 子 图 构建 。 


人 val subGraph2: Graph[PartitionID，PartitionID] = graphFromFile.subgraph 
(epred = e => e.srcId > e.dstId,vpred= (id，_) => id>500000) // 顶 点 
ID 大 于 500000 

2 println ("subGraph2 .vertices.count (): "+ subGraph2.vertices.count()) 

Se 

在 IDEA 中 运行 代码 ， 验 证 subGraph2 的 顶点 过 滤 后 的 个 数 。 

1. Using Spark's default 1og4j profile: org/apache/spark/1og4j-defaults. 

properties 


2. 17/04/09 21:00:43 INFO SparkContext: Running Spark version 2.1.0 
3. 17/04/09 21:00:43 WARN NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 


5. 17/04/09 21:01:04 INFO DAGScheduler: ResultStage 13 (reduce at 
VertexRDDImpl .scala:90) finished in 0.182 s 

6. subGraph2.vertices.count(): 400340 

7. 17/04/09 21:01:04 INFO DAGScheduler: Job 6 finished: reduce at 
VertexRDDImpl .scala:90, took 0.209837 s 


“Ta7'e 
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执行 结果 表明 顶点 的 个 数 是 400 340， 原 来 的 顶点 个 数 是 875 713， 顶 点 在 过 滤 条 件 的 作 
用 下 减少 了 。 
下 面 看 一 下 顶点 大 于 1 000 000 的 顶点 个 数 。 
后 val subGraph2: Graph[PartitionID，PartitionID] = graphFromFile. 
subgraph (epred =e =>e.srcId > e.dstId,vpred= (id, ) => id>1000000) 
2 println ("subGraph2 .vertices.count (): "+ subGraph2 .vertices.count ()) 


2. 17/04/09 21:05:25 INFO TaskSetManager: Finished task 1.0 in stage 13.0 
(TID 30) in 155 ms on localhost (executor driver) (3/4) 


3. subGraph2.vertices.count(): 0 
4. 17/04/09 21:05:25 INFO Executor: Finished task 2.0 in stage 13.0 (TID 31). 
1112 bytes result sent to driver 


从 结果 中 可 以 发 现 不 存在 顶点 的 IJD 大 于 1 000 000 的 情况 。 
18.10 图 操作 之 Computing Degree 实战 


度 (Degree) 是 离散 数学 的 概念 ,在 Spark GraphX 中 把 Degree 分 为 inDegrees、outDegrees、 
degrees 这 3 种 不 同 的 degree， 以 图 18-12 为 例 。 

在 图 18-12 中 ,顶点 5 的 inDegrees 是 1、outDegrees 是 2、degrees 是 3。Degree 是 GraphOps 
中 的 成 员 ， 源 码 如 下 所 示 。 

T. /as 


2 * 图 中 每 个 顶点 的 入 度 

3 * Q@note 没有 入 边 的 顶点 不 在 RDD 中 返回 

4. */ 

Se Qtransient lazy val inDegrees: VertexRDD[Int] = 

6 degreesRDD (EdgeDirection.In) .setName ("GraphOps.inDegrees") 
y 

8 V 罚 


9. * 图 中 每 个 顶点 的 出 度 
10. ”* @note 没有 出 边 的 顶点 不 在 RDD 中 返回 


EF - */ 

2 @transient lazy val outDegrees: VertexRDD[Int] = 

信人 degreesRDD (EdgeDirection.Out) .setName ("GraphOps .outDegrees") 
14. 

5 


16. ”* 图 中 每 个 顶点 的 度 
Ey * @note 无 边 的 顶点 不 在 RDD 中 返回 


18- */ 

9 @transient lazy val degrees: VertexRDD[Int] = 

1 degreesRDD (EdgeDirection.Either) .setName ("GraphOps .degrees") 
方向 控制 的 时 候 是 由 EdgeDirection 决定 的 ， 其 源码 如 下 所 示 。 

有 /** 
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人 * [EdgeDirection] 边 方向 集合 
< 

4. object EdgeDirection { 

55 /** 到 达 顶 点 的 边 */ 


:后 final val In: EdgeDirection = new EdgeDirection("In") 
Ms 

8. /** 起 源 于 顶点 的 边 */ 

9. final val Out: EdgeDirection = new EdgeDirection ("Out") 
10. 


11. /st#* 到 达 顶 点 的 边 或 者 起 源 于 项 点 的 边 */ 

人 final val Either: EdgeDirection = new EdgeDirection("Either") 
13. 

14. /** 到 达 顶 点 的 边 并 且 起 源 于 顶点 的 边 */ 

15. final val Both: EdgeDirection = new EdgeDirection("Both") 


下 面 看 一 下 基于 web-Google.txt 构建 的 Graph 的 inDegrees。 


val tmp: VertexRDD[PartitionID] =graphFromFile.inDegrees 
for (elem <- tmp.take(10)) { 
println ("graphFromFile.inDegrees: "+ elem) 


} 
在 IDEA 中 运行 代码 ， 查 看 Graph 的 inDegrees。 


1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 

2. 17/04/10 12:58:43 INFO SparkContext: Running Spark version 2.1.0 

区 17/04/10 12:58:44 WARN NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 


PODP 


ed 
5. 17/04/10 12:59:11 INFO DAGScheduler: Job 8 finished: take at Graphx_ 
webGoogle.scala:40, took 1.449161 s 
6. graphFromFile.inDegrees: (185012,1) 
7. graphFromFile.inDegrees: (354796,2) 
8. graphFromFile.inDegrees: (199516, 28) 
9. graphFromFile.inDegrees: (627804,2) 
10. graphFromFile.inDegrees: (TIOT92 LY 
11. graphFromFile.inDegrees: (307248,2) 
12. graphFromFile.inDegrees: (512760,2) 
13. graphFromFile.inDegrees: (386896, 3) 
14. graphFromFile.inDegrees: 3267653) 
15. graphFromFile.inDegrees: (S165271) 


16. 17/04/10 12:59:11 INFO SparkContext: Starting job: take at Graphx_ 
webGoogle.scala:45 


也 可 以 对 outDegrees 和 degrees 进行 计算 。 


1. val tmpl: VertexRDD[PartitionID] =graphFromFile.outDegrees 
2. for (elem <- tmpl.take(10)) { 

光 加 Pintln ("graphEFromFile .outDegrees: ”+ elem) 

CC ; 

J 

6. val tmp2: VertexRDD[PartitionID] =graphFromFile.degrees 

7- for (elem <- tmp2.take(10)) { 

8 println("graphFromFile.degrees: "+ elem) 

cE 


“Ts 
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在 IDEA 中 运行 代码 ， 查 看 Graph 的 outDegrees 和 degrees。 


SR 

2. 17/04/10 19:48:41 INFO DAGScheduler: ResultStage 24 (take at Graphx 
webGoogle.scala:44) finished in 0.141 s 

3. graphFromFile .outDegrees: (612052, 2) 

graphFromFile.outDegrees: (354796,1) 

5. 17/04/10 19:48:41 INFO DRGScheduler: Job 9 finished: take at Graphx 
webGoogle.scala:44, took 0.861334 s 


6. graphFromFile.outDegrees: (182316, 2) 
7. graphFromFile.outDegrees: {199516720) 
8. graphFromFile.outDegrees: (627804, 8) 
9. graphFromFile.outDegrees: (170792, 9) 
10. graphFromFile.outDegrees: (307248, 2) 
11. graphFromFile.outDegrees: (512760,7) 
12. graphFromFile.outDegrees: (386896,18) 
13. graphFromFile.outDegrees: (32676,15) 


14. 17/04/10 19:48:41 INFO SparkContext: Starting job: take at Graphx_ 
webGoogle.scala:49 


16. 17/04/10 19:48:42 INFO DAGScheduler: Job 10 finished: take at Graphx_ 
webGoogle.scala:49, took 1.616604 s 


17. graphFromFile.degrees: (185012,1) 
18. graphFromFile.degrees: (612052, 2) 
19. graphFromFile.degrees: (354796, 3) 
20. graphFromFile.degrees: (182316, 2) 
21. graphFromFile.degrees: (199516, 48) 
22. graphFromFile.degrees: (627804,10) 
23. graphFromFile.degrees: (170792, 10) 
24. graphFromFile.degrees: (307248, 4) 
25. graphFromFile.degrees: (512760, 9) 
26. graphFromFile.degrees: (386896,21) 
PT 


如 果 想 算 哪 个 顶点 的 inDegrees 或 者 outDegrees 或 者 Degrees 最 大 , 是 非常 简单 的 , 首先 
定义 一 个 比较 两 个 顶点 Degree 中 较 大 值 的 函数 ， 如 下 所 示 。 
1. def max(a: (VertexId, Int),b: (VertexId, Int)): (VertexId, Int)=if(a. 2 > b. 2) 


a else b 
这 各 println("graphFromFile.degrees.reduce (max) : "” + graphFromFile. 
degrees.reduce (max) ) 
SE 
在 IDEA 中 运行 代码 ， 查 看 哪个 顶点 Degrees 最 大 的 结果 如 下 。 
ee 


2. 17/04/10 19:55:16 INFO DAGScheduler: ResultStage 32 (reduce at Graphx 
webGoogle.scala:54) finished in 0.867 s 

3. graphFromFile.degrees.reduce (max): (537039, 6353) 

4. 17/04/10 19:55:16 INFO DAGScheduler: Job 11 finished: reduce at Graphx 
webGoogle.scala:54, took 0.880735 s 

5. 17/04/10 19:55:16 INFO SparkContext: Starting job: take at Graphx_ 
webGoogle.scala:56 


se 
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计算 结果 表明 ID 为 537039 的 顶点 的 Degrees 最 大 ， 有 6353 条 边 与 之 相连 。 
下 面 使 用 graphFromFile.inDegrees.reduce(max) 看 一 下 哪个 节点 具有 最 大 的 inDegrees。 
1. def max(a: (VertexId, Int),b: (VertexId, Int)):(VertexId,Int)=if (as 2 > 


b. 2) a else b 
2 


3. println("graphFromFile.inDegrees.reduce (max): "+graphFromFile.inDegrees. 
reduce (max) ) 


在 IDEA 中 运行 代码 ， 查 看 哪个 节点 具有 最 大 的 inDegrees 的 结果 如 下 。 


2. 17/04/10 20:03:52 INFO TaskSetManager: Finished task 1.0 in stage 36.0 
(TID 57) in 354 ms on localhost (executor driver) (3/4) 


3. graphFromFile.inDegrees.reduce (max): (537039, 6326) 

4. 17/04/10 20:03:52 WARN Executor: 1 block locks were not released by TID 
= 58: 

De a 


此 时 发 现 同样 是 ID 为 537039 的 顶点 ， 如 果 这 是 一 张 网 页 ， 就 表明 是 一 个 质量 非常 不 错 
的 网 页 。 
下 面 使 用 graphFromFile.outDegrees.reduce(max) 看 一 下 哪个 节点 具有 最 大 的 outDegrees。 


1. def max(a: (VertexId, Int),b: (VertexId, Int)): (VertexId, Int)=if(a. 2 >b. 2) a 
else b 


人 println("graphFromFile.outDegrees.reduce (max): "+graphFromFile. 
outDegrees.reduce (max) ) 


在 IDEA 中 运行 代码 ， 查 看 哪个 节点 具有 最 大 的 outDegrees 的 结果 如 下 。 


2. 17/04/10 20:09:19 INFO DAGScheduler: Job 13 finished: reduce at Graphx_ 
webGoogle.scala:56, took 0.240818 s 

3. graphFromFile.outDegrees.reduce (max): (506742, 456) 

4. 17/04/10 20:09:19 INFO SparkContext: Starting job: take at Graphx 
webGoogle.scala:59 


结果 显示 ID 为 506742 的 顶点 具有 最 大 的 outDegrees， 如 果 是 网 页 ， 则 其 具有 指向 456 
个 外 部 网 页 的 链接 ， 这 一 般 都 是 导航 网 站 。 


18.11 图 操作 之 Collecting Neighbors 实战 


计算 方法 主要 有 collectNeighborIds 和 collectNeighbors 两 个 ， 源 码 都 位 于 GraphOps 中 。 
collectNeighborIds 方法 的 源码 如 下 。 


/** 
* 对 于 每 个 项 点， 收集 邻居 项 点 ID 
* @param edgeDirection 边 的 方向 ， 收 集 相 邻 顶点 的 方向 
* @return 每 个 顶点 的 相 邻 ID 集 
这 
def collectNeighborIds (edgeDirection: EdgeDirection): VertexRDD [Array 
[VertexId]] = { 


ONnpOoODp 


a 
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ys val nbrs = 

0 if (edgeDirection == EdgeDirection.Either) { 

9. graph.aggregateMessages [Array[VertexId]] ( 

0 ctx => { ctx-sendToSrc (Array(ctx-dstId)); ctx.sendToDst (Array 
(ctx.srcId)) }, 

:下 二 ++ ，TripletFields.-None) 

了 2 } else if (edgeDirection == EdgeDirection-Out) { 

3。 graph.aggregateMessages[Array[VertexId]] ( 

14. ctx => ctx.sendToSrc(Array (ctx.dst1d)), 

++ , TripletFields.None) 

16. } else if (edgeDirection == EdgeDirection.In) { 

Ts graph.aggregateMessages [Array[VertexId]]( 

18. ctx => ctx.sendToDst (Array (ctx.srcId)), 

19s _ ++ _, TripletFields.None) 

205 } else { 

LF throw new SparkException ("It doesn't make sense to collect neighbor 

ids without a "+ 

这 2 "direction. (EdgeDirection.Both is not supported; use EdgeDirection. 
Either instead.)") 

3 | 

Za graph.vertices.leftZipJoin(nbrs) { (vid, vdata, nbrsOpt) => 

二 nbrsOpt .getOrElse (Array.empty [VertexId]) 

26. } 


27.  } // collectNeighborIds 结束 


collectNeighbors 方法 的 源码 如 下 。 


1. /a#* 

2 * 为 每 个 顶点 收集 邻居 顶点 属性 。 

三 局 * 

4. * @note 这 个 函数 在 容 律 图 ( 军 律 图 是 小 部 分 项 点 的 度 很 大 ， 大 部 分 项 点 的 度 很 低 ) 中 可 
* 能 效率 很 低 ， 高 度 项 点 可 能 会 使 大 量 的 信息 收集 到 一 个 位 置 

5 下 

6. * Q@param edgeDirection 边 的 方向 ， 收 集 相 邻 项 点 的 方向 

了 于 

8 * @return 每 个 顶点 的 邻近 顶点 属性 的 顶点 集 

*/ 

10. def collectNeighbors (edgeDirection: EdgeDirection): VertexRDD[RArray 
[(VertexId, VD)]] = { 

I val nbrs = edgeDirection match { 

3 case EdgeDirection.Either => 

有 graph.aggregateMessages [Array[ (VertexId, VD)]]( 

14. ctx = 

5 ctx.sendToSrc (Array ((ctx.dstId, ctx.dstAttr))) 

6. ctx.sendToDst (Array ((ctx.srcId, ctx.srcAttr))) 

有 y 作 5 

EE (a, b) => a ++ b, TripletFields.All) 

9 case EdgeDirection.In => 

20E graph.aggregateMessages [Array[ (VertexId, VD)]]( 

4 ctx => ctx.sendToDst (Array((ctx.srcId, ctx.srcAttr))), 

225 (a, b) => a ++ b, TripletFields.Ssrc) 

和 2232 case EdgeDirection.Out => 

人 2 graph.aggregateMessages [Array[ (VertexId, VD)]]( 

5 ctx => ctx.sendToSsrc(Array((ctx.dstId, ctx.dstAttr))), 

26. (a, b) => a ++ b, TripletFields.Dst) 

2 case EdgeDirection.Both => 

2 throw new SparkException("collectEdges does not support 


EdgeDirection.Both. Use" + 
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之 9 "EdgeDirection.Either instead.") 

30 } 

时 graph.vertices.leftJoin(nbrs) { (vid, vdata, nbrsOpt) => 
2 nbrsOpt .getOrElse (Array-empty[ (VertexId, VD)]) 

人 3 } 


< 上 四 } // end of collectNeighbor 
从 上 述 两 个 方法 的 源码 中 可 以 看 出 EdgeDirection.Both 是 不 被 支持 的 ， 这 一 点 在 使 用 的 
时 候 需 要 注意 。 


18.12 ”图 操作 之 Join Operators 实战 


Join Operators 是 非常 重要 的 图 操作 , 其 有 两 个 核心 方法 :joinVertices 和 outerJoinVertices。 
其 中 ，joinVertices 只 作用 于 有 ID 链接 的 地 方 ， 而 outerJoinVertices 会 作用 于 所 有 的 人 D。 
joinVertices 的 源码 位 于 GraphOps 中 ， 如 下 所 示 。 


15 7 

2 * ”关联 顶点 RDD， 从 顶点 和 RDD 转换 应 用 一 个 新 的 顶点 值 。 输入 表 最 多 包含 每 个 顶点 的 一 个 
* 实体。 如 果 没 有 提供 转换 函数 ， 则 使 用 原来 的 值 

3 于 

网 * etparam U 更 新 表 中 的 实体 类 型 

5 * @param table 与 图 中 顶点 关联 的 表 。 表 最 多 应 包含 每 个 顶点 的 一 个 实体 

Ss * @param mapFunc 用 于 计算 新 顶点 的 方法 。map 函数 用 于 表 中 对 应 的 实体 ， 和 否则 将 使 用 
* 原来 的 顶点 值 

放 奖 

8. * @example 此 方法 基于 外 部 数据 更 新 顶点 ， 例 如， 对 每 个 顶点 ， 可 以 添加 出 度 的 数据 

9 交 

10 . 可 Tt 

了 * val rawGraph: Graph[Int，Int] = GraphLoader.edgeListFile(sc, "webgraph") 

Ep 让 -mapVertices((，_) => 0) 

3 * Val outDeg = rawGraph.outDegrees 

14. * val graph = rawGraph.joinVertices[Int] (outDeg) 

让 说 冰 GE = oUtDeg) => outDeg) 

16. * 站 

JT * 

18. */ 


19. def joinVertices[U: ClassTag] (table: RDD[ (VertexId, U)]) (mapFunc: (VertexId, 
VD，U) => VD) 


De : Graph[VD，ED] = { 

4 val uf = (id: VertexId，data: VD，o: Option[U]) => { 
全 2 o match { 

2 case Some(u) => mapFunc (id, data, u) 
24. case None => data 

本 1 

26 . } 

2 graph.outerJoinVertices (table) (uf) 

2 

outerJoinVertices 的 源码 位 于 Graph 中 ， 如 下 所 示 。 

i /** 


2 * 在 table RDD 关联 顶点 实体 ， 使 用 mapfunc 合并 函数 。 输入 表 最 多 包含 每 个 顶点 的 一 个 
* 实 体 。 如 果 没 有 图 中 的 某 个 特定 顶点 提供 的 other 实体 ，map 函数 就 接收 None 


-Ta 
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35 * 

4. * @tparam U 表 更 新 实体 的 类 型 

Se * @tparam VD2 新 顶点 的 类 型 

[5 来 

和 * @param other 与 图 中 顶点 关联 的 表 ， 最 多 包含 每 个 项 点 的 一 个 实体 

8 * @param mapFunc 用 于 计算 新 项 点 值 的 函数 。 所 有 项 点 调用 map 函数 ， 即 使 表 中 没有 

95 * 相应 的 项 

102 * 

11. ”*Qexample 此 函数 用 于 更 新 基于 外 部 数据 的 新 的 顶点 值 。 例 如 ， 可 以 对 每 个 顶点 增加 出 度 
* 记录 

32- * 

Ee A{ 

14. * Val rawGraph: Graph[ , _] = Graph.textFile("webgraph") 

2 * Val outDeg: RDDI[ (VertexId, Int)] = rawGraph.outDegrees 

16. * val graph = rawGraph.outerJoinVertices(outDeg) { 

LE be (vid, data, optDeg) => optDeg.getOrElse (0) 

18 . ww 

219< * }}} 

20: */ 

ZH def outerJoinVertices[U: ClassTag, VD2: ClassTag] (other: RDD[ (VertexId, U)]) 

2 (mapFunc: (VertexId, VD, Option[UV]) => VD2) (implicit eq: VD =:= VD2 

= null) 
2 : Graph [VD2, ED] 


接 下 来 演示 joinVertices 和 outerJoinVertices 的 使 用 。 

首先 把 所 有 顶点 的 属性 都 变 成 0， 代码 如 下 所 示 。 

4 val rawGraph: Graph[PartitionID，PartitionID] =graphFromFile.mapVertices 
((id, attr) =>0 ) 

2. for (elem <- rawGraph.vertices.take(10)) { 


< println ("rawGraph.vertices: "+ elem) 
cv 


在 IDEA 中 运行 代码 ， 通 过 rawGraph.vertices.take(10) 看 一 下 执行 结果 。 


2. 17/04/11 12:38:06 INFO DAGScheduler: ResultStage 42 (take at Graphx 
webGoogle.scala:60) finished in 0.040 s 

3. 17/04/11 12:38:06 INFO DAGScheduler: Job 14 finished: take at Graphx_ 
webGoogle.scala:60, took 0.046316 s 


4 IawGraph.vertices: (185012,0) 
5. rawGraph.vertices: (612052,0) 
6. rawGraph.vertices: (354796,0) 
7. rawGraph.vertices: (182316, 0) 
8. rawGraph.vertices: (199516, 0) 
9. rawGraph.vertices: (627804,0) 
10. rawGraph.vertices: (170792,0) 
11. rawGraph.vertices: (307248,0) 
12. rawGraph.vertices: (512760,0) 
13. rawGraph.vertices: (386896,0) 


14. 17/04/11 12:38:07 INFO SparkContext: Starting job: take at Graphx 
webGoogle.scala:64 
A 


发 现 此 时 成 功 地 让 顶点 的 属性 值 变 成 了 0。 
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接 下 来 找到 所 有 outDegrees 的 顶点 的 集合 。 


a val outDeg: VertexRDD[PartitionID] =rawGraph.outDegrees 


下 面 执行 joinVertices 的 操作 。 
5 val tmpJoinVertices: Graph[PartitionID， PartitionID] =rawGraph.join 
Vertices [Int] (outDeg) (( , , optDeg) => optDeg) 
for (elem <- tmpJoinVertices.vertices.take(10)) { 
println("tmpJoinVertices.vertices: ”+ elem) 


2 
3 
a 

在 IDEA 中 运行 代码 ， joinVertices 执行 结果 如 下 。 
I 

2 


17/04/11 13:33:05 INFO DAGScheduler: Job 15 finished: take at Graphx_ 
webGoogle.scala:67, took 1.634308 s 


3. tmpJoinVertices.vertices: (185012, 0) 
4. tmpJoinVertices.vertices: (61205272} 
5. tmpJoinVertices.vertices: (354796,1) 
6. tmpJoinVertices.vertices: (182316,2) 
7. tmpJoinVertices .vertices: (199516, 20) 
8. tmpJoinVertices.vertices: (627804, 8) 
9. tmpJoinVertices.vertices: (170792, 9) 
10. tmpJoinVertices.vertices: (307248, 2) 
11. tmpJoinVertices.vertices: (512760,7) 
12. tmpJoinVertices.vertices: (386896,18) 
13. 17/04/11 13:33:05 INFO SparkContext: Starting job: take at Graphx_ 
webGoogle.scala:73 
14. 


可 以 看 到 ID 为 185012 的 项 点 的 属性 值 为 0， 这 是 因为 这 个 顶点 没有 参加 Join 操作 。 
接 下 来 看 outerJoinVertices 的 操作 。 


1. val tmpouterJoinVertices: Graph[PartitionID， PartitionID] =rawGraph. 
outerJoinVertices[Int, Int] (outDeg) ((_, _, optDeg) =>optDeg.getOrElse(0)) 


2. for (elem <- tmpouterJoinVertices.vertices.take(10)) { 
< 人 println("tmpouterJoinVertices.vertices: "+ elem) 
Wh 

在 IDEA 中 运行 代码 ，outerJoinVertices 执行 结果 如 下 。 

:he 


2. 17/04/11 13:47:13 INFO DAGScheduler: Job 16 finished: take at Graphx_ 
webGoogle.scala:72, took 0.242373 s 


3. tmpouterJoinVertices.vertices: (185012, 0) 
4 tmpouterJoinVertices.vertices: (612052,2) 
5. tmpouterJoinVertices.vertices: (354796,1) 
6 tmpouterJoinVertices.vertices: (182316,2) 
7. tmpouterJoinVertices.vertices: (199516,20) 
8. tmpouterJoinVertices .vertices: (627804,8) 
9. tmpouterJoinVertices.vertices: (170792, 9) 
10. tmpouterJoinVertices.vertices: (307248,2) 
11. tmpouterJoinVertices.vertices: (512760,7) 
12. tmpouterJoinVertices.vertices: (386896,18) 


13. 17/04/11 13:47:13 INFO SparkContext: Starting job: take at Graphx 
webGoogle.scala:77 


5s 
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18.13 ”图 操作 之 aggregateMessages 实战 


许多 图 分 析 任 务 的 关键 步骤 是 聚合 每 个 顶点 邻 域 的 信息 。 例 如 ， 我 们 可 能 想 知道 每 个 用 
户 拥 有 的 关注 者 数量 或 每 个 用 户 的 追随 者 的 平均 年 龄 。 许 多 友 代 图 算法 〈 如 PageRank， 最 短 
路 径 和 连接 组 件 ) 重复 聚合 相 邻 项 点 的 属性 〈 如 当前 PageRank Value， 源 的 最 短路 径 和 最 小 
可 达 顶 点 id) 。 为 了 提高 性 能 ， 主 要 聚集 操作 从 老 的 API 函数 graph.mapReduceTriplets 改变 
为 使 用 新 的 API 函数 graph.AggregateMessages。 

在 Spark 早期 版 本 的 GraphX 中 ， 邻 域 聚合 是 使 用 旧 的 API 函数 mapReduceTriplets 运算 
符 完成 的 : 
class Graph[VD, ED] { 

def mapReduceTriplets [Msg] ( 
map: EdgeTriplet[VD, ED] => Iterator [ (VertexId, Msg)], 


reduce: (Msg, Msg) => Msg) 
: VertexRDD[Msg] 











Own 


在 mapReduceTriplets 操作 中 需要 定义 map 转换 函数 应 用 到 每 个 三 元 组 ， 产 生 用 户 定义 
ei 使 用 用 户 定义 的 聚合 reduce 函数 进行 聚合 , 但 是 ， 返 回 的 迭代 器 Iterator 

能 进行 额外 的 优化 (如 局 部 顶点 重新 编号 等 ) 。 

Spark 2X 中 已 经 不 再 使 用 mapReduceTriplets 函数 ， 取 而 代 之 的 是 新 的 函数 
aggregateMessages。 在 aggregateMessages 函数 中 引入 EdgeContext， 定 义 三 元 组 字段 ， 提 供 
了 向 源 顶 点 和 目标 顶点 发 送 消 息 的 功能 ， 同 时 删除 了 字 节 码 检查 。 定 义 三 元 组 实际 需要 哪些 
字段 ? 

以 下 代码 块 使 用 旧 的 函数 mapReduceTriplets。 
val graph: Graph[Int，Float] = .. 


def msgFun (triplet: Triplet[Int， i Iterator[(Int, String)] = { 
Iterator ((triplet.dstId, "Hi")) 


def reduceFun (a: String, b: String): String =a+""+b 


eh 
ce 
5 
6. val result = graph.mapReduceTriplets[String] (msgFun, reduceFun) 


在 Spark 2.X 中 ， 使 用 新 的 函数 aggregateMessages。 


在 
1 val graph: Graphl[Int, Float] = .. 

2. def msgFun (triplet: le era Float, String]) { 

| triplet.sendToDst ("Hi") 

ol 

5 doef reducepun(a: ‘Stringy Bb: String}): String = a+ "~" Fb 

6. val result = graph.aggregateMessages[String] (msgFun, reduceFun) 


Spark 2.2 ”GraphX 中 的 核心 聚合 操作 是 aggregateMessages。 该 操作 将 用 户 定义 的 
sendMsg 函数 应 用 于 图 中 的 每 个 边 三 元 组 ， 然 后 使 用 mergeMsg 函数 在 其 目标 顶点 聚合 这 些 
消息 。aggregateMessages 源码 在 Graph 中 ， 源 码 如 下 所 示 。 


IE /** 
2 * ”从 每 个 顶点 的 相 邻 边 和 项 点 进行 聚合 ,用 户 提供 的 sendMsg 函数 在 图 中 的 每 条 边 上 调用 ， 
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* 生成 0 个 或 更 多 的 消息 发 送 到 边 的 任 一 顶点 。mergeMsg 用 来 将 发 送 到 同一 个 顶点 的 消息 


* 进行 合并 

3 * 

4. * @tparam A 发 送 到 每 个 顶点 的 消息 类 型 

5. 机 

6 * Q@param sendMsg 运行 在 每 条 边 上 ， 发 送 消息 到 相 邻 顶点 使 用 [EdgeContext] 。 

7 * @pararm mergeMsg 用 于 合并 sendMsg 发 送 的 目标 顶点 是 同一 个 顶点 的 信息 ， 合 并 可 以 
* 交换 和 关联 

8 * @param tripletFields 定义 哪些 字段 在 [EdgeContext] 传 递 给 sendMsg 函数 。 如 果 
* 不 是 所 有 字段 都 需要 ， 指 定 字段 可 以 提高 计算 性 能 

9. 机 

10 . * Qexample 可 以 使 用 这 个 函数 来 计算 每 个 顶点 

11. we 

2 * Val rawGraph: Graph[ , _] = Graph.textFile("twittergraph") 

3 * val inDeg: RDDI[ (VertexId, Int)] = 

14. * rawGraph.aggregateMessages[Int] (ctx => ctx.sendToDst(1), _+ ) 

15. pa 

16. 水 

3 * @note 通过 计算 边 层次 ， 实 现 最 大 并 行 度 。 这 是 Graph API 的 核心 功能 之 一 ， 实 现 邻 
* 域 计算 ， 函 数 可 以 用 来 对 符合 条 件 的 邻居 进行 计数 或 实现 PageRank 网 页 排名 

18 . 束 

了 3 区 

20. def aggregateMessages [RAR: ClassTag] ( 

pl sendMsg: EdgeContext [VD, ED, A] => Unit, 

2 mergeMsg: (A, A) => A, 

235 tripletFields: TripletFields = TripletFields.All) 

pa : VertexRDD[A] = { 

25e aggregateMessagesWithActiveSet (sendMsg, mergeMsg, tripletFields, None) 

26.. "} 


用 户 定义 的 sendMsg 函数 采用 EdgeContext， 将 源 和 目标 属性 以 及 边 属性 、 函 数 
(sendToSrc，sendToDst) 一 起 发 送 到 源 和 目标 属性 ， 可 以 将 sendMsg 函数 理解 成 map-reduce 
中 的 map 函数 。 用 户 定义 的 mergeMsg 函数 需要 两 个 发 往 同一 顶点 的 消息 , 并 产生 单个 消息 ， 
可 以 将 mergeMsg 函数 理解 成 map-reduce 中 的 reduce 函数 。aggregateMessages 操作 返回 一 
个 VertexRDD[Msg]， 将 该 聚合 消息 (Msg 的 类 型 ) 发 往 每 个 顶点 。 没 有 收 到 消息 的 顶点 不 
包括 在 返回 的 VertexRDD 中 。 

aggregateMessages 使 用 一 个 可 选 的 三 元 组 字段 tripletsFields ， 表 明 哪 个 数据 在 
EdgeContext 中 被 访问 (例如 ， 是 源 顶 点 属性 ， 而 不 是 目标 顶点 属性 ) 。tripletsFields 的 可 能 
选项 在 tripletsFields 中 定义 ，TripletFields 的 默认 值 是 TripletFields.All， 表 明 用 户 定义 的 
sendMsg 函数 可 以 访问 EdgeContext 的 任何 字段 。 该 tripletFields 参数 可 用 于 通知 GraphX， 只 
有 部 分 EdgeContext 允许 GraphX 选择 优化 的 关联 策略 。 例 如 ， 如 果 计 算 每 个 用 户 的 追随 者 
的 平均 年 龄 ， 只 需要 源 字段 ， 因 此 我 们 将 用 于 TripletFields.Src 表示 我 们 只 需要 源 字段 。 

在 早期 版 本 的 GraphX 中 ， 我 们 使 用 字 节 码 检测 来 推断 TripletFields， 但 是 发 现 字 节 码 检 
测 有 时 不 可 靠 ， 而 是 选择 了 更 明确 的 用 户 控制 。 

在 下 面 的 例子 中 , 我 们 使 用 aggregateMessages 操作 来 计算 所 有 比 这 个 用 户 年 龄 大 的 用 户 
的 个 数 以 及 比 这 个 用 户 年 龄 大 的 用 户 的 平均 年 龄 。 首 先 随机 生成 一 张 图 : 

1. import org.apache.spark.graphx.{Graph, VertexRDD} 

2. import org.apache.spark.graphx.util.GraphGenerators 
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// 创 建 一 个 图 ， 以 年 龄 作为 顶点 属性 

// 这 里 ， 我 们 使 用 一 个 简单 的 随机 图 
val graph: Graph[Double, Int] = 
GraphGenerators.logNormalGraph(sc, numVertices = 100) .mapVertices 
( (id, ) => id.toDouble ) 


// 打 印 显示 随机 生成 的 内 容 
for (elem <- graph.vertices.take(10)) { 
Println("graph.vertices: "+ elem) 


} 
forl(lelem <- graph.edges.take(10)) { 
Println("graph.edges: "+ elem) 


17/04/12 08:38:56 INFO DAGScheduler: Job 0 finished: take at Graphx 
aggregateMessages.scala:29, took 2.208011 s 


graph.vertices: (96,96.0) 
graph.vertices: (56,56.0) 
graph.vertices: (16,16.0) 
graph.vertices: (80,80.0) 
graph.vertices: (48,48.0) 
graph.vertices: (3273250) 
graph.vertices: (0,0.0) 

. graph.vertices: (24,24.0) 

. graph.vertices: (64,64.0) 

. graph.vertices: (40,40.0) 


. 17/04/12 08:38:56 INFO SparkContext: Starting job: take at Graphx 


aggregateMessages.scala:32 


. 17/04/12 08:38:56 INFO DAGScheduler: Job 1 finished: take at Graphx 


aggregateMessages.scala:32, took 0.063005 s 


. graph.edges: Edge (0,1,1) 

. graph.edges: Edge (0,4,1) 

. graph.edges: Edge (0,4,1) 

. graph.edges: Edge (0,12,1) 
. graph.edges: Edge (0,13,1) 
. graph.edges: Edge (0,14,1) 
. graph.edges: Edge (0,15,1) 
. graph.edges: Edge (0,23,1) 
. graph.edges: Edge (0,27,1) 
. graph.edges: Edge (0,36,1) 


. 17/04/12 08:38:56 INFO SparkContext: Starting job: collect at Graphx 


aggregateMessages.scala:52 








此 时 假设 图 顶点 的 ID 为 用 户 年 龄 ， 下 面 的 代码 可 以 计算 出 所 有 比 这 个 用 户 年 龄 大 的 用 
户 的 个 数 以 及 比 这 个 用 户 年 龄 大 的 用 户 的 平均 年 龄 。 


1 
2 


“Re 











// 计算 出 比 这 个 用 户 年 龄 大 的 用 户 的 个 数 以 及 比 这 个 用 户 年 龄 大 的 用 户 的 总 年 龄 
Val olderFollowers: VertexRDD[ (Int, Double)] = graph.aggregateMessages 
[(Int, Double)]( 
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triplet => { // Map 函数 
if (triplet.srcAttr > triplet.dstAttr) { 
// 发 送 消息 到 目标 项 点 包含 计数 和 年 龄 
triplet.sendToDst (1, triplet.srcAttr) 
| 
}, 
// 计数 和 年 龄 分 别 相 加 
(ay b) => (a. 1+b. 1, a. 2 + b. 2) // Reduce 函数 


// 比 这 个 用 户 年 龄 大 的 用 户 的 个 数 除 总 年 龄 ， 获 得 比 这 个 用 户 年 龄 大 的 追随 者 的 平均 年 龄 
val avgAgeOfOlderFollowers: VertexRDD[Double] = 
olderFollowers.mapValues( (id, value) => 
value match { case (count, totalAge) => totalAge / count } ) 
// 结 果 展 示 
avgAgeOfOlderFollowers.collect.foreach (println( )) 


在 IDEA 中 运行 代码 ， 所 有 比 这 个 用 户 年 龄 大 的 用 户 的 平均 年 龄 的 内 容 结果 如 下 。 


17/04/12 08:38:57 INFO DAGScheduler: Job 2 finished: collect at Graphx 
aggregateMessages.scala:52, took 1.455939 s 
(56777.22222222222223j 
(CRSXROA 
(80,85.66666666666667) 
(48,69.5) 
(32,65.28571428571429) 
(0,53.041666666666664) 
(24,58.54545454545455) 

0 Ph | 

. (40,67.29411764705883) 

. (72,81.66666666666667) 

. (8,47.84615384615385) 

- (887.94:5) 


18.14 图 算法 之 Pregel API 原理 解析 与 实战 


为 什么 Spark GraphX 会 提供 Pregel API 呢 ? 主要 是 便于 迭代 操作 。 因 为 在 GraphX 里 面 ， 


Graph 这 张 图 并 没有 自动 Cache， 而 是 手动 Cache， 但是， 在 每 次 迭代 中 ， 为 了 加 快速 度 ， 需 
要 手动 Cache， 每 次 迭代 完 就 需要 把 没 用 的 删除 掉 ， 而 把 有 用 的 保留 ， 这 是 非常 难以 控制 的 ， 
因为 Graph 中 的 点 和 边 是 分 开 进 行 Cache 的 ， 而 Pregel 能 够 帮助 我 们 做 这 件 事 情 ， 能 够 把 一 
些 细节 屏蔽 掉 ， 所 以 如 果 你 有 很 多 友 代 操作 ， 如 PageRank， 就 非常 适合 使 用 Pregel 来 做 。 


Pregel 的 API 的 代码 位 于 GraphOps 类 中 ， 其 处 理 过 程 是 异步 的 ， 性 能 非常 出 色 ， 源 码 


如 下 所 示 。 


型 
六 


/** 


* 执行 一 个 Pregel-1ike 迭代 并 行 项 点 的 抽象 .用 户 定义 的 顶点 程序 vprog 是 并 行 执行 的 ， 
* 对 每 个 顶点 接收 的 消息 计算 新 的 顶点 值 。sendqMsg 函数 在 所 有 出 向 边 上 被 调用 ， 并 用 于 计 
* 算 一 个 可 选 的 消息 到 目标 项 点 ;mergeMsg 函数 用 于 在 相同 的 顶点 上 将 消息 进行 聚合 

* 第 一 次 迭代 时 ， 所 有 项 点 接收 initialMsg; 在 随后 的 迭代 中 ， 如 果 顶 点 不 接收 消息 ， 项 


“799 “< 


中 篇 商业 案例 








Oo 


小 


关 关 类 


束 


点 程序 将 不 会 被 调用 

函数 一 直 和 迭代 到 没有 剩余 的 消息 ， 或 达到 最 大 maxiterations 迭代 次 数 
etparam A Pregel 消息 类 型 

eparam initialMsg 第 一 次 迭代 时 ， 每 个 顶点 将 收 到 消息 

eparam maxIterations 运行 的 最 大 友 代 次 数 


Q@param activeDirection 边 的 方向 事件 ， 对 于 顶点 ， 收 到 上 一 轮 sendMsg 函数 发 送 
的 消息 。 例 如 ， 如 果 是 EdgeDirection .Out， 只 有 出 向 边 的 顶点 在 上 一 轮 中 收 到 消息 的 
才 运 行 


eparam vprog 用 户 定义 的 顶点 程序 ， 运 行 在 每 个 顶点 上 ， 根 据 接收 的 消息 计算 新 的 项 
点 值 。 第 一 次 迭代 时 ,顶点 程序 通过 默认 消息 应 用 到 所 有 顶点 ; 在 随后 的 迭代 中 ,顶点 程序 
只 在 这 些 已 经 收 到 消息 的 顶点 上 调用 

eparam sendMsg 用 户 定义 的 函数 应 用 到 在 当前 迭代 中 收 到 消息 的 出 向 边 的 顶点 中 


Q@param mergeMsg 用 户 定义 的 函数 ， 需 要 两 个 传 入 类 型 A 的 消息 ， 并 将 其 合并 到 单个 
入 类 型 的 消息 中 。 函 数 可 以 结合 和 交换 ， 理 想 情况 下 ，R 类 型 的 大 小 不 应 该 增加 


ereturn 计算 结束 时 得 到 的 图 
/ 


def pregel[A: ClassTag] ( 


initialMsg: A, 
maxIterations: Int = Int.MaxValue, 
activeDirection: EdgeDirection = EdgeDirection.Either) ( 
vprog: (VertexId, VD, A) => VD, 
sendMsg: EdgeTriplet [VD, ED] => Iterator[ (VertexId, A)], 
mergeMsg: (A, A) => A) 
: Graph[VD，ED] = { 
Pregel (graph, initialMsg, maxIterations, activeDirection) (vprog, 
sendMsg, mergeMsg) 


构造 Pregel 对 象 使 用 的 是 其 object 对 象 的 apply 方法 。 
Spark 2.1.1 版 本 中 的 Pregel.scala 源码 如 下 。 


i 
2 


。800 。 


束 
wr 
来 
束 
束 
束 
束 
束 
束 
* 
束 


/ 


六 
六 


六 


实现 了 一 个 Pregel-1ike 批量 同步 消息 传递 接口 。 不 同 于 以 前 的 Pregel-like API， 
GraphX Pregel API 在 边 上 应 用 sendMessage 计算 ， 使 发 送 的 消息 计算 读 取 顶 点 属性 和 
约束 图 结构 。 这 些 变 化 在 基于 图 的 计算 时 大 大 提高 了 分 布 式 执行 的 效率 ， 也 更 具 灵 活性 


eexample 例如 ， 可 以 使 用 Pregel 抽象 实现 PageRank 
{{{ 
Val pagerankGraph: Graph[Double, Double] = graph 
// 与 每 个 顶点 的 关联 度 
.outerJoinVertices (graph.outDegrees) { 
(vid, vdata, deg) => deg.getOrElse(0) 
} 
// 根据 度 设置 边 的 权重 
.mapTriplets(e => 1.0 / e.srcAttr) 
// 将 顶点 属性 设置 为 初始 PageRank 值 
.mapVertices((id, attr) => 1.0) 
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六 
* def vertexProgram(id: VertexId, attr: Double, msgSum: Double) : Double = 
来 resetProb + (1.0 - resetProb) * msgSum 

* def sendMessage (id: VertexId, edge: EdgeTriplet[Double, Doublel]): 
* Iterator[ (VertexId, Double)] = 

* Iterator((edge.dstId, edge.srcAttr * edge.attr)) 

* def messageCombiner(a: Double, b: Double): Double = a + b 

* val initialMessage = 0.0 

* // 执行 Pregel 固定 次 数 的 迭代 

* Pregel (pagerankGraph, initialMessage, numIter)( 

* vertexProgram, sendMessage, messageCombiner) 

六 

六 


二 


. Object Pregel extends Logging { 


/** 

* 执行 Pregel-1ike 迭代 项 点 的 并 行 抽 象 。 用 户 定义 的 顶点 程序 vprog 并 行 执行 ， 每 个 
顶点 接收 消息 并 计算 新 的 项 点 值 。 sendMsg 函数 在 所 有 的 出 向 边 被 调用 , 用 于 在 目标 项 点 
计算 可 选 的 消息 。mergeMsg 函数 是 可 交换 的 ， 用 于 在 相同 的 项 点 将 消息 进行 合并 


第 一 次 迭代 时 ， 所 有 项 点 收 到 initialMsg 消息 ; 在 随后 的 迭代 中 ， 如 果 项 点 没有 接收 到 
消息 ， 则 顶点 程序 不 会 调用 运行 


函数 一 直 和 迭代 到 没有 剩余 的 消息 ， 或 迭代 到 最 大 的 次 数 maxiterations 


素 

* 

来 

* 

* 

* 

六 

* 

* @tparam VD 顶点 数据 类 型 

* Qtparam ED 边 数据 类 型 

* @tparam A Pregel 消息 类 型 
* 

* @param 输入 图 

六 

* @param initialMsg 第 一 次 迭代 时 ， 每 个 顶点 收 到 的 初始 消息 
来 

* @param maxIterations 运行 的 最 大 迭代 次 数 

素 
六 
六 
* 


@param activeDirection 边 的 方向 事件 ， 顶 点 收 到 上 一 轮 sendMsg 函数 发 送 的 消 
息 。 例 如 ,如 果 是 EdgeDirection.Out， 只 有 在 上 一 轮 中 收 到 消息 的 出 向 边 的 顶点 才 运行 。 
默认 值 是 EdgeDirection-Either， 在 上 一 轮 中 收 到 消息 的 边 会 运行 sendMsg; 如 果 是 


* EdgeDirection.Both，sendMsg 在 边 和 顶点 都 收 到 消息 才 会 运行 
来 


* Q@param vprog 用 户 定义 的 顶点 程序 ， 运 行 在 每 个 顶点 上 ， 根 据 接收 的 消息 计算 新 的 项 
* 点 值 。 第 一 次 迭代 时 ， 项 点 程序 通过 默认 消息 应 用 到 所 有 顶点; 在 随后 的 欠 代 中 ， 项 点 程序 只 
* 在 这 些 已 经 收 到 消息 的 顶点 上 调用 


* @param sendMsg 用 户 定义 的 函数 应 用 到 在 当前 迭代 中 收 到 消息 的 出 向 边 的 顶点 中 
* @param mergeMsg 用 户 定义 的 函数 ， 需 要 两 个 传 入 类 型 A 的 消息 ， 并 将 其 合并 到 单个 
* A 类 型 的 消息 中 。 函 数 可 以 结合 和 交换 ， 理 想 情况 下 ，A 类 型 的 大 小 不 应 该 增加 


* @return 在 计算 结束 时 得 到 的 图 


SS 
def apply[VD: ClassTag, ED: ClassTag, A: ClassTag] 


“30 < 


中 篇 “商业 案例 








与 作 二 (graph: Graph[VD, ED], 

Soe initialMsg: A, 

60 . maxIterations: Int = Int.MaxValue, 

61. activeDirection: EdgeDirection = EdgeDirection.Either) 

| 永生 (vprog: (VertexId, VD, A) => VD, 

3 sendMsg: EdgeTriplet[VD, ED] => Iterator[ (VertexId, A)], 

64. mergeMsg: (A, A) => A) 

65. : Graph[VD, ED] = 

G6: 

67. require (maxIterations > 0, s"Maximum number of iterations must be 

greater than 0," + 

68 . s" but got ${maxIterations}") 

69< 

Oe var g = graph.mapVertices((vid, vdata) => vprog (vid, vdata, initialMsg)). 

cache () 

六 这 // 计 算 消 息 

了 Var messages = GraphXUtils.mapReduceTriplets(g, sendMsg, mergeMsg) 

了 3 var activeMessages = messages.count () 

74 // 循 环 

9 Var prevG: Graph[VD, ED] = null 

IT6e var i=0 

了 了 while (activeMessages > 0 && i < maxIterations) { 

78. // 接 收 消息 并 更 新 顶点 

9 prevG = 9 

80 . g = g.joinVertices (messages) (vprog) .cache () 

81. 

825 val oldMessages = messages 

83. // 发 送 新 消息 ， 跳 过 没有 收 到 消息 的 边 。 我 们 必须 缓存 ， 消 息 因此 可 以 在 下 一 行 被 物化 ， 
// 人 允许 去 掉 上 一 次 迭代 的 缓存 

84. messages = GraphXUtils.mapReduceTriplets( 

85. g, sendMsg, mergeMsg,Some( (oldMessages,activeDirection) ) ) .cache () 

86 . // 调 用 count () 计 算 messages 和 g 的 顶点 。 隐藏 了 旧 的 消息 oldmessages 

87. // (取决 于 g 的 顶点 ) 和 prevG 顶点 (依靠 旧 的 消息 oldmessages 和 g 的 顶点 ) 

88. activeMessages = messages.count () 

89< 

90. logInfo("Pregel finished iteration " + i) 

9 

92. // 将 隐藏 在 新 物化 的 RDD 去 掉 缓存 

9 oldMessages.unpersist (blocking = false) 

94. prevG.unpersistVertices (blocking = false) 

SR prevG.edges.unpersist (blocking = false) 

96. // 选 代 计 算 

Ds i += 1 

98- } 

399 messages.unpersist (blocking = false) 

100 . g 

401- } 

DA 


O03 } //class Pregel 结束 


Spark 2.2.0 版 本 的 Pregelscala 的 apply 方法 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 

口 新 增 构建 PeriodicCheckpointer 子 类 PeriodicGraphCheckpointer PeriodicRDDCheckpointer 
的 实例 ， 并 进行 更 新 及 删除 处 理 。 

口 PeriodicCheckpointer 抽象 有 助 于 对 RDDS 类 型 (如 Graphs 和 DataFrames) 。 进 行 
持久 化 persisting 和 checkpointing 。 我 们 使 用 Dataset 来 引用 分 布 式 数据 类 型 〈 如 
RDD、Graph 等 ) 。 具 体 来 说 ，PeriodicCheckpointer 抽象 自动 处 理 persisting 和 【可 








“BD. 


第 18 章 使 用 Spark GraphX 实现 婚恋 社交 网 络 多 维度 分 析 案 例 








选 ) checkpointing， 以 及 Unpersisting 和 删除 检查 点 文件 。 在 Dataset 被 物化 之 前 ,一 
个 新 的 Dataset 已 被 创建 ， 用 户 可 以 调用 update 方法 ，[PeriodicCheckpointer] 更 新 后 ， 
用 户 负责 物化 Dataset 来 保证 persisting 和 checkpointing。 
调用 update 方法 ， 将 进行 以 下 内 容 : 
口 持久 化 新 Dataset (如 果 尚 未 持久 化 ) ， 并 放 入 持久 化 数据 集 的 队列 中 。 
口 Unpersist Datasets 数据 : 从 队列 Unpersist 到 至 多 有 3 个 persisted 已 经 持久 化 的 数据 。 
口 如 果 已 经 使 用 了 checkpointing 和 检查 点 间隔 时 间 : 
> 检查 新 的 数据 集 ， 并 放 在 检查 点 数据 集 的 队列 中 ; 
> 删除 旧 的 检查 点 。 
i 


蒋 


后 : 
口 不 应 复制 这 个 类 《因为 副本 可 能 冲突 ， 数 据 集 应 该 是 检查 点 ) 。 
口 在 Datasets 被 持久 化 checkpointed 以 后 ， 如 这 个 类 删除 检查 点 文件 checkpoint files。 
在 旧 的 Datasets 的 引用 中 仍 返 回 isCheckpointed = true。 





各 val checkpointInterval = graph.vertices.sparkContext.getConf 

三 .getInt ("spark.graphx.pregel.checkpointInterval", -1) 

3 var g = graph .mapVertices( (vid, vdata) => vprog (vid, vdata, initialMsg)) 
5 val graphCheckpointer = new PeriodicGraphCheckpointer[VD, ED]( 

6 checkpointInterval, graph.vertices.sparkContext) 

TD graphCheckpointer.update (g) 


9. val messageCheckpointer = new PeriodicRDDCheckpointer[ (VertexId, A)]( 
10. checkpointInterval, graph.vertices.sparkContext) 

i messageCheckpointer .update (messages.asInstanceOf [RDD[ (VertexId, A)]]) 
A 

43 g = g.joinVertices (messages) (vprog) 

I 

15. messages = GraphXUtils.mapReduceTriplets( 

JE 9g，sendMsg，mergeMsg，Some ( (oldqMessages，activeDirection) )) 

I 

;六 messageCheckpointer .update (messages.asInstanceOf [RDD[ (VertexId, A)]]) 

于 人 

20 messageCheckpointer.unpersistDataSet () 

2 graphCheckpointer.deleteAllCheckpoints() 

2 messageCheckpointer.deleteAllCheckpoints () 

a 


接 下 来 使 用 Pregel API 来 作 一 个 例子 , 车载 地 图 导航 软件 一 般 都 有 最 短路 径 和 最 佳 路 径 ， 
我 们 这 里 以 计算 两 个 点 之 间 的 最 短路 径 为 例 来 说 明 Pregel API 的 使 用 ， 我们 依旧 使 用 
web-Google 提供 的 数据 ， 此 时 就 是 计算 任何 两 个 网 页 之 间 的 最 短路 径 ， 当 然 ， 任 何 两 个 网 页 
之 间 不 一 定 都 存在 最 短路 径 。 

首先 定义 sourceId， 如 下 所 示 。 


1 val sourceId: VertexId = 0 
接 下 来 通过 mapVertices 操作 来 获得 新 的 Graph: 
i val g:=graphFromFile.mapVertices((id, ) =>if(id == sourceId) 0.0 else 


Double.PositiveInfinity) 


下 面 开 始 用 pregel 进行 处 理 。 





“M3 


中 篇 “商业 案例 








1 val sssp = g.pregel (Double.PositiveInfinity)( 

4 (id，dist，newDist) => math.min(dist，newDist)，// 顶 点 程序 
triplet => { // 发 送 消 息 

4 if (triplet.srcAttr + triplet.attr < triplet.dstAttr) { 

Us Iterator((triplet.dstId, triplet.srcAttr + triplet.attr)) 
6 } else { 

Iterator.empty 

8 } 

9. }, 

10. (a，b) => math.min(a，b) // 合 并 消息 


:让 
12. println(sssp.vertices.collect.mkstring("\n")) 


在 IDEA 中 运行 代码 ， 结 果 如 下 所 示 。 


2. 17/04/13 19:43:54 INFO DAGScheduler: Job 52 finished: collect at 
Graphx webGoogle.scala:100, took 2.309694 s 

3. sssp.vertices.collect: (185012,12.0) 

4 (612052, Infinity) 

5. (354796,11.0) 

6. (182316,Infinity) 

学 (199516, 8.0) 

8 (627804,15.0) 

9 (L707927.11L:0) 

10. (307248, Infinity) 

JE (51216071220) 

12. (386896,11.0) 


前 面 我 们 设置 sourceld 为 0， 那么 从 0 开始 到 185 012 这 个 网 页 时 需要 12 步 ， 而 从 0 这 
个 网 页 永远 无 法 到 达 612 052。 
上 述 就 是 求 最 短路 径 的 方法 ， 此 时 你 也 可 以 把 它 看 作 是 地 图 导航 ， 不 同 的 是 ， 我 们 这 里 
把 每 条 边 的 值 都 看 成 1， 而 地 图 导航 两 个 点 之 间 会 有 里 程 的 不 同 ， 其 计算 过 程 是 一 致 的 。 


18.15 图 算法 之 ShortestPaths 原理 解析 与 实战 


最 短路 径 在 地 图 、 电 子 商 务 、 社 交 网 络 中 等 都 有 广泛 的 应 用 。 
关于 最 短路 径 的 计算 ， 前 面 已 经 有 分 析 和 代码 案例 ， 在 此 不 再 著述 。 其 源码 如 下 。 
1. /** 
* 计 算 给 定 的 地 标 顶 点 的 最 短路 径 ， 返 回 一 个 图 项 点 属性 ， 每 个 顶点 属性 的 映射 包含 到 每 个 可 


* 达 地 标的 最 短路 径 距 离 
和 


object ShortestPaths { 
/** 存储 一 个 映射 : 从 地 标的 顶点 ID 到 该 地 标的 距离 */ 
type SPMap = Map [VertexId， Int] 


private def makeMap(x: (VertexId, Int)*) = Map(X: _*) 


Pocoaow 必 wm 


一 全 


private def incrementMap (spmap: SPMap) : SPMap = spmap.map { case (v, d) 
= = Ei 


上 
IN 


private def addMaps (spmapl: SPMap, spmap2: SPMap): SPMap = 


.804. 
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14. 


了 5 
16. 
FF 
国电 
9 


过 个 
2 下 
2 
和 3 
24. 
5 
26. 
Ze 


28. 
2 
30- 
Si 
Ey 
S33. 
34. 
3 
0 
三 全 
38 . 


SS 
40. 


41. 
3 
EE 尖 
44. 
着 
46. 


(spmapl .keySet ++ spmap2.keySet) .map { 
k => k -> math.min(spmapl.getOrElse(k, Int.MaxValue), spmap2.getOr 
Else(k, Int.MaxValue)) 

} .toMap 


Ss 
关 
党 


计算 给 定 地标 顶 点 集 的 最 短路 径 
etparam ED 边 的 属性 类 型 ， 不 用 于 计算 


eparam graph 图 用 于 计算 最 短路 径 
Q@param landmarks 地 标 顶点 ID 列表 。 最 短路 径 将 被 计算 到 每 个 地 标 


关 美美 六 美美 美 关 


@return ”返回 图 的 每 个 顶点 属性 是 一 个 映射 ,包含 距离 每 个 可 达 地 标 顶点 的 最 短路 径 
*/ 
def run[VD, ED: ClassTag] (graph: Graph[VD, ED], landmarks: Seq 
[VertexId]): Graph[SPMap, ED] = { 
val spGraph = graph.mapVertices { (vid, attr) => 

if (landmarks.contains (vid)) makeMap (vid -> 0) else makeMap () 
} 


val initialMessage = makeMap () 


def vertexProgram(id: VertexId, attr: SPMap, msg: SPMap): SPMap = { 
addMaps (attr, msg) 
} 


def sendMessage (edge: EdgeTriplet[SPMap, ]): Iterator[ (VertexId, 
SPMap)] = { 
val newAttr = incrementMap (edge.dstAttr) 
if (edge.srcAttr != addMaps (newAttr, edge.srcAttr)) Iterator ( (edge. 
srcId, newAttr)) 
else Iterator.empty 


} 


Pregel (spGraph, initialMessage) (vertexProgram, sendMessage, addMaps) 


18.16 图 算法 之 PageRank 原理 解析 与 实战 


非常 著名 的 PageRank 的 用 途 非常 广泛 ， 如 社交 网 络 的 推荐 等 。PageRank 图 如 图 18-19 


所 示 。 





图 18-19 PageRank 图 


“MSs 
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Spark GraphX 的 GraphOps 中 提供 了 PageRank 方法 ， 使 用 PageRank 方法 可 以 让 你 即 
使 在 不 了 解 PageRank 实现 算法 的 情况 下 ， 通 过 一 行 代 码 也 可 使 用 PageRank， 其 源码 如 下 所 示 。 














/** 


* PageRank 算法 的 实现 有 两 种 方法 


第 一 个 实现 方法 : 使 用 独立 的 Graph 接口 运行 PageRank 算法 ， 和 迭代 固定 次 数 
{{{ 
var PR = Array-.fill(n)( 1.0) 
val oldPR = Array.fill(n)( 1.0 ) 
for( iter <- 0 until numIter ) { 
swap (oldPR, PR) 
fort i <= 0 ntiL mn Dt 
PR[i] =alpha+ (1 - alpha) * inNbrs[i] .map(j => oldPR[j] / outDeg[j]) .sum 
: 
} 
二 


第 二 个 实现 方法 : 使 用 Pregel 接口 运行 PageRank 算法 ， 直 到 聚合 


| 
var PR = Array.fill(n)( 1.0 ) 
val oldPR = Array.fill(n)( 0.0 ) 
while( max(abs(PR - oldPr)) > tol ) { 
swap (oldPR, PR) 
for( i <- 0 until n if abs(PR[i] - oldPR[i]) > tol ) { 
PR[i] = alpha + (1 - \alpha) * inNbrs[i].map(j => oldPR[j] / 
outDeg[j]) .sum 
} 
} 
}}} 


alpha 是 随机 重 置 的 概率 (通常 为 0.15), inNbrs [i] 是 邻居 集 , 其 关联 到 i 和 outDeg[j]， 
outDeg[j] 是 项 点 了 的 出 度 


关 状 尖 关 汰 汰 闫 六 芝 美美 关 关 关 闫 闫 帝 


* @note 这 不 是 “标准 化 ”的 PageRank 算法 ， 作 为 结果 页 ， 没 有 反 向 链接 具备 PageRank 
* 的 alpha 
各 沁 


. Object PageRank extends Logging { 


PageRank 进行 固定 次 数 的 迭代 , 返回 一 个 图 的 顶点 属性 包含 PageRank 和 标准 化 边 权 重 
的 边 属性 


@tparam VD 原始 的 顶点 属性 (不 使 用 ) 
etparam ED 原始 的 边 属性 (不 使 用 ) 


eparam graph 计算 PageRank 的 图 
Q@param numIter 运行 的 PageRank 和 迭代 次 数 
eparam resetProb 随机 重 置 概率 (alpha) 


闪闪 闪闪 党 
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47. ”* @return 图 每 个 顶点 包含 PageRank 和 每 条 边 包 含 标准 化 权重 


48. */ 

49. def run[VD: ClassTag, ED: ClassTag] (graph: Graph [VD, ED], numIter: Int, 

S50 resetProb: Double = 0.15): Graph[Double, Double] = 

SE { 

三 2 runWithOptions (graph, numIter, resetProb) 

SEE 

另 一 种 PageRank 的 内 部 具体 方法 的 实现 如 下 。 

a /** 

2 * 运 行 一 个 动态 版 本 的 PageRank， 返 回 图 的 顶点 属性 包含 标准 化 边 权 重 的 PageRank 和 边 属性 

三 事 

7 * @tparam VD 原始 的 顶点 属性 (不 使 用 ) 

Bs * Q@tparam ED 原始 的 边 属 性 (不 使 用 ) 

6. 机 

区 * @param graph 计算 PageRank 的 图 

: * @param tol 聚集 时 允许 的 容错 (更 小 => 更 准确 ) 

9. * @param resetProb 随机 重 置 概率 (alpha) 

10 . 事 

FE * @return 图 包含 每 个 顶点 的 PageRank 和 每 条 边 包 含 标准 化 权重 

2 要/ 

了 3 def runUntilConvergence[VD: ClassTag, ED: ClassTag] ( 

14. graph: Graph[VD, ED], tol: Double, resetProb: Double = 0.15): Graph 
[Double, Double] = 

| 

ID runUntilConvergenceWithOptions (graph, tol, resetProb) 

2 


下 面 看 一 下 PageRank 的 使 用 ， 我 们 依旧 基于 web-Google.txt 的 数据 。 
1. val rank: VertexRDD[Double] = graphFromFile.pageRank(0.01) .vertices 
在 IDEA 中 运行 代码 ，PageRank 执行 的 结果 如 下 所 示 。 


2. 17/04/13 20:59:41 INFO DAGScheduler: Job 107 finished: take at Graphx 
webGoogle.scala:102, took 0.129050 s 


3. rank: (185012,0.18083095391383722) 
4. rank: (061205220515) 

5. rank: (354796,0.18810908106478783) 
i 


我 们 可 以 注意 到 在 使 用 pageRank 方法 的 时 候 需 要 传 入 一 个 参数 ， 传 入 的 这 个 参数 的 值 
越 小 ，PageRank 计算 的 值 就 越 精确 ， 如 果 数 据 量 特别 大 而 传 入 的 参数 值 又 特别 小 ， 就 会 导致 
巨大 的 计算 任务 和 太 长 的 计算 时 间 。 

18.17 图 算法 之 TriangleCount 原理 解析 与 实战 

TriangleCount 的 主要 用 途 之 一 是 用 于 社区 发 现 ， 如 图 18-20 所 示 。 


“M07 


中 篇 “商业 案例 








Fewer Triangles More Triangles 
Weaker Community Stronger Community 





图 18-20 社区 发 现 


例如 ， 在 微 博 上 你 关注 的 人 也 互相 关注 ， 大 家 的 关注 关系 中 就 会 有 很 多 三 角形 ， 这 说 明 
社区 很 强 ， 很 稳定 ， 大 家 的 联系 都 比较 紧密 ;如 果 只 是 你 一 个 人 关注 很 多 人 ， 这 说 明 你 的 社 
交 群 体 非常 小 。 

triangleCount 的 源码 位 于 GraphOps 中 ， 如 下 所 示 。 


camwm 必 wm 


/** 
* 计 算 通 过 每 个 顶点 的 三 角形 数 。 
水 


* @see [[org.apache.spark.graphx.1ib.TriangleCount$#run]] 
*/ 

def triangleCount(): Graph[Int，ED] = { 
TriangleCount .run (graph) 


进入 triangleCount 的 run 的 源码 实现 如 下 。 


ooODNDp 


计算 通过 每 个 顶点 的 三 角形 数 


该 算法 相对 比较 简单 ， 计 算 分 为 三 个 步 又 : 

1. 计算 每 个 顶点 的 邻居 集 

2. 对 于 每 条 边 计 算 集 的 交集 ， 发 送 计数 到 两 个 顶点 

3. 计算 每 个 顶点 的 和 除 以 2， 因为 每 个 三 元 组 被 计算 两 次 


这 里 有 两 种 实现 方法 ,默认 的 实现 方法 TriangleCount .run 首先 移 除 自 循环 和 规范 化 图 ， 
要 确保 以 下 条 件 : 

1. 没有 自己 的 边 

2. 所 有 边 的 方向 (src 顶点 大 于 dst 目标 项 点) 

3. 没有 重复 的 边 


* 

* 

避 

本 

来 

来 

* 规范 化 过 程 代价 较 高 ， 因 为 需要 对 图 重新 分 区 。 如 果 输 入 的 数据 已 符合 “规范 范式 ”， 而 且 
*# 去 掉 了 自 循环 ， 那 取而代之 可 使 用 TriangleCount.runPreCanonicalized 
本 


ly 

val canonicalGraph = graph.mapEdges(e => 1) .removeSelfEdges(). 
canonicalizeEdges () 

val counts = TriangleCount.runPreCanonicalized(canonicalGraph). 
vertices 


}}} 


- Object TriangleCount { 


def run[VD: ClassTag, ED: ClassTag] (graph: Graph[VD，ED]) : Graph[Int， 
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0 
25> // 转 换 边 的 数据 ， 进 行 shuffle， 然 后 规范 化 
4 val canonicalGraph = graph.mapEdges(e => true) .removeSelfEdges(). 


convertToCanonicalEdges () 


275 // 获 得 三 角形 计数 


2 val counters = runPreCanonicalized(canonicalGraph) .vertices 

9 // 与 原始 的 图 关联 

30 . graph.outerJoinVertices (counters) { (vid, ，optCounter: OPtion [Int]) => 
3 optCounter .getOrElse (0) 

时 } 

33. } 


从 源码 中 可 以 清晰 地 看 出 ， 如 果 进 行 Triangle 计算 ， 需 要 保持 sourceld 小 于 destId， 所 
以 此 时 创建 Graph 时 必须 指定 GraphLoader.edgeListFile 的 canonicalOrientation 参数 为 true， 
如 下 所 示 。 


1 val graphFortriangleCount: Graph[PartitionID，PartitionID] = GraphLoader. 
edgeListFilel(sc, dataPath + "web-Google.txt", true) 


2 val c: VertexRDD[PartitionID] = graphFromFile.triangleCount () .vertices 
3 for (elem <- c.take(10)) { 

4. println("triangleCount: "+ elem) 

} 


在 IDEA 中 运行 代码 ， 一 直 要 运行 几 个 小 时 ， 读 者 可 以 自行 测试 一 下 。 
18.18 使 用 Spark GraphX 实现 婚恋 社交 网 络 多 维度 分 析 实 战 


我 们 登录 一 个 婚恋 社交 网 站 ， 如 珍爱 网 、 世 纪 佳缘 网 等 ， 登 录 网 站 须 进 行 注册 ， 当 用 户 
在 婚恋 网 站 上 注册 时 有 一 个 用 户 也， 注册 用 户 的 职业 、 年 龄 、 婚 姻 状 况 、 收 入 、 学 习 背 景 、 
性 格 等 。 例 如 ， 性 格 分 成 金 、 木 、 水 、 火 、 土 ， 假 设 郭 靖 是 水 型 性 格 ， 黄 蓉 是 火 型 性 格 等 ， 
这 个 时 候 婚 恋 网 有 一 套 推断 逻辑 , 哪 类 性 格 类 型 匹配 什么 类 型 。 如 果 是 土 型 性 格 加 木 型 性 格 ， 
那 推荐 的 最 佳 的 性 格 是 水 型 性 格 加 人 金 型 性 格 。 


用 户 在 婚恋 网 注册 时 的 用 户 ID 对 应 图 计算 中 的 顶点， 顶点 及 相关 的 属性 就 形成 了 顶点 
的 表 。 顶 点 的 属性 定义 了 用 户 名 称 、 用 户 年 龄 )。 


在 婚恋 网 站 上 ， 当 男生 点 击 某 个 女生 ， 在 点 击 的 时 候 ， 点 击 的 行为 就 会 被 婚恋 网 站 记录 
下 来 ， 这 就 形成 了 图 计算 中 一 个 又 一 个 边 的 关系 ， 用 户 点 击 关 注 的 行为 就 形成 了 边 的 表 。 边 
的 属性 为 源 顶 点 用 户 点 击 了 目标 项 点 的 用 户 几 次 。 

这 就 构建 了 一 张 顶 点 的 表 ， 一 张 边 的 表 。 顶 点 的 表 记录 了 用 户 的 基本 信息 。 边 的 表 描 述 
发 生 了 什么 社交 网 络 关 系 ， 如 图 18-21 所 示 。 

假如 男生 关注 一 个 女生 ， 婚 恋 网 站 就 会 发 送 给 用 户 这 个 女生 相关 的 信息 ， 提 示 用 户 这 个 
女生 喜欢 什么 类 型 的 男生 。 根 据 图 计算 就 能 很 好 地 计算 这 种 情况 ， 计 算出 用 户 的 出 度 (关注 
的 女生 ) 。 当 男生 、 女 士 开 始 交往 ， 婚 恋 网 站 就 会 分 析 记录 双方 的 行为 ， 使 用 机 器 学 习 进 行 
行为 分 析 。 
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图 18-21 婚恋 社交 图 


作为 女生 ， 也 很 关注 男生 的 职业 分 布 ， 哪 些 男生 关注 了 女生 ， 追 求 男生 的 最 大 年 龄 是 多 
少 ， 最 小 年 龄 是 多 少 ， 离 家 最 近 的 男生 ， 等 等 。 所 有 这 些 要 完成 大 数据 系统 分 析 ， 就 需要 结 
合 Spark SQL、 图 计算 和 机 器 学 习 的 内 容 来 实现 。 
本 节 简 化 需求 ， 使 用 Spark GraphX 实现 婚恋 社交 网 络 多 维度 分 析 实 战 。 
首先 在 Spark 开发 代码 中 屏蔽 日 志 ， 设 置 运 行 环境 。 
// 屏 蔽 日 志 
Logger.getLogger ("org.apache.spark") .setLevel (Level .WARN) 
Logger .getLogger ("org.eclipse.jetty.server") .setLevel (Level .OFF) 


// 设 置 运行 环境 

val conf = new SparkConf () .setAppName ("SNSAnalysisGraphX") .setMaster 
("local[4]") 

val sc = new SparkContext (conf) 


婚恋 社交 网 络 多 维度 分 析 实 战 先 设 置顶 点 和 边 ， 顶 点 和 边 是 用 元 组 定义 的 Aray， 然 后 
使 用 SparkContext 的 parallelize 方法 分 别 构造 vertexRDD 和 edgeRDD， 最 终 构造 图 
Graph[VD.ED]。 
// 设 置顶 点 和 边 ， 注 意 顶 点 和 边 都 是 用 元 组 定义 的 Rrray 

// 顶 点 的 数据 类 型 是 VD: (String, Int) 

Val vertexArray = Array( 


1 
2 
3 
4. A (AT ZO 
i pz PP (be :oN 
6 
J 
8 


和 
隐 
4. 
5 
6 


7 


(SL Car SY 
(4L, ("David", 42)), 
: (5L, ("Ed", 55)), 
oe (6L, ("Fran", 50)) 


pe 
11. // 边 的 数据 类 型 ED:Int 
2 val edgeArray = Array( 
sh Edge (2L, 1L, 7), 
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请 Edge (2L, 4L, 2), 
15. Edge (3L, 2L, 4), 
16. Edge (3L, 6L, 3), 
Ty Edge (4L, 1L, 1), 
18. Edge (5L, 2L, 2), 


19. Edge (5L, 3L, 8), 
208 Edge (5L, 6L, 3) 


22. // 构 造 vertexRDD 和 edgeRDD 
之 3 val vertexRDD: RDD[ (Long, (String, Int))] = sc.parallelize (vertexArray) 
2 val edgeRDD: RDD[Edge[Int]] = sc.parallelize (edgeArray) 


26. // 构 造 图 Graph [VD, ED] 
2 val graph: Graph[ (String, Int), Int] = Graph (vertexRDD, edgeRDD) 


18.18.1 婚恋 社交 网 络 多 维度 分 析 实 战 图 的 属性 演示 


本 节 婚 恋 社交 网 络 多 维度 分 析 实 战 图 的 属性 演示 中 实现 以 下 需求 。 
口 顶点 操作 : 列 出 婚恋 社交 网 络 图 中 年 龄 大 于 30 岁 的 用 户 。 
口 边 操作 : 列 出 婚恋 社交 网 络 图 中 用 户 点 击 他 人 超过 5 次 的 用 户 。 
口 三 元 组 操作 : 列 出 婚恋 社交 网 络 图 中 三 元 组 中 所 有 的 源 项 点 用 户 喜欢 目标 项 点 的 
用 户 。 
口 三 元 组 操作 : 列 出 婚恋 社交 网 络 图 中 三 元 组 中 用 户 点 击 他 人 超过 5 次 的 用 户 。 
口 度 操 作 : 列 出 婚恋 社交 网 络 图 中 谁 关注 最 多 的 人 《用 户 关 注 了 多 少 个 其 他 用 户 ) ， 
关注 度 最 高 的 人 多少 个 人 关注 这 个 用 户 )、 总 关注 度 最 大 的 人 。 
婚恋 社交 网 络 多 维度 分 析 实 战 图 的 属性 演示 具体 方法 实现 如 下 。 
(1) 顶点 操作 : 列 出 婚恋 社交 网 络 图 中 年 龄 大 于 30 岁 的 用 户 。 有 两 种 实现 方法 : 
方法 1， 在 图 顶点 的 过 滤 方 法 中 使 用 模式 匹配 ， 过 滤 年 龄 大 于 30 岁 的 用 户 。 图 顶点 的 类 
型 是 (VertexId, VD)， 顶 点 属性 VD 在 这 里 是 (姓名 ,年 龄 ) ， 图 顶点 VertexRDD 类 型 格式 为 
〈 图 顶点 ID、《【 姓 名 ,年 龄 ) ) ， 将 大 于 30 岁 的 年 龄 过 滤 掉 就 可 以 了 。 
方法 2, 在 图 项 点 的 过 滤 方 法 中 使 用 v_2. 2 > 30 进行 过 滤 ，VertexRDD 类 型 格式 为 (图 
顶点 ID、《【 姓 名 ,年 龄 ) ) ， 每 个 图 顶点 的 v._1 第 一 个 元 素 是 图 顶点 ID， 每 个 图 顶点 的 v._2 
第 二 个 元 素 是 图 属性 〈 姓 名 ,年 龄 ) ，v. 2._1 是 姓名 ，v. 2. 2 就 获取 到 图 顶点 属性 中 的 第 二 
个 元 素 年 龄 数据 ， 过 滤 掉 大 于 30 岁 的 用 户 ， 然 后 打印 输出 。 
(2) 边 操作 : 列 出 婚恋 社交 网 络 图 中 用 户 点 击 他 人 超过 5 次 的 用 户 。 找 出 图 中 属性 大 于 
5 的 边 ， 在 图 的 边 方法 中 过 滤 掉 graph.edges.filter(e => eattr > 5) 就 可 以 。 











(3) 三 元 组 操作 : 列 出 婚恋 社交 网 络 图 中 三 元 组 中 所 有 的 源 顶 点 用 户 喜欢 目标 项 点 的 用 
户 。 三 元 组 包含 五 个 元 素 ， 格 式 为 ((srcId, srcAttD, (dstId, dstAttr), attr)， 在 婚恋 社交 网 络 图 中 
格式 为 (〈 源 顶点 太 ， 源 顶点 属性 (姓名, 年龄) ) ， (目标 顶点 ID， 目标 顶点 属性 〈 姓 名 ， 
年 龄 )) ， 边 属性 点 击 次 数 ) 。 要 列 出 用 户 关 注 的 情况 ， 使 用 图 中 的 triplet.srcAttr. 1 获取 源 
顶点 属性 tripletsrcAttr 〈( 姓 名， 年龄 ) 的 第 一 个 元 素 姓 名 ， 使 用 图 中 的 triplet.dstAttr. 1 获取 


al 
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目标 顶点 属性 triplet.dstAttr 〈 姓 名 ， 年 龄 ) 的 第 一 个 元 素 姓名 ， 然 后 打印 输出 。 





(4) 三 元 组 操作 : 列 出 婚恋 社交 网 络 图 中 三 元 组 中 用 户 点 击 他 人 超过 5 次 的 用 户 。 首 先 





在 图 的 三 元 组 中 进行 过 滤 ， 在 婚恋 社交 网 络 图 中 三 元 组 的 格式 为 (〔 源 项 点 ID， 源 顶点 属性 
(姓名 ,年 龄 )) ，( 目 标 项 点 卫 , 目 标 项 点 属性 〈 姓 名 ， 年 龄 ) ) ， 边 属性 点 击 次 数 ) ，tattr 
就 是 边 属 性 点 击 次 数 ， 使 用 tattr > 5 就 可 以 过 滤 掉 用 户 点 击 超过 5 次 的 用 户 。 然 后 打印 输出 








源 项 点 、 目 标 顶 点 姓名 就 可 以 。 
(5) 度 操作 : 列 出 婚恋 社交 网 络 图 中 谁 关注 最 多 的 人 《用 户 关 注 了 多 少 个 其 他 用 户 ) ， 


关注 度 最 





高 的 人 《多 少 个 人 关注 这 个 用 户 ) 、 和 总 关注 度 最 大 的 人 。 计 算 婚 恋 社交 网 络 图 哪个 


顶点 的 imDegrees 或 者 outDegrees 或 者 Degrees 最 大 ，scala 代码 是 很 强悍 的 ， 我 们 定义 一 个 
比较 两 个 顶点 Degree 中 较 大 值 的 函数 max， 然 后 调用 graph.outDegrees.reduce(max)、 
graph.inDegrees.reduce(max)、graph.degrees.reduce(max) 即 可 ， 就 这 么 简单 。 

婚恋 社交 网 络 多 维度 分 析 实 战 图 的 属性 操作 代码 如 下 。 





/ /六 六 六 六 六 六 六 六 六 六 来 六 六 六 六 率 六 六 六 六 六 六 六 六 六 六 六 这 六 六 六 六 六 六 六 浆 玉 浆 六 六 六 六 六 六 水 六 六 冰冰 冰冰 来 闵 率 六 冰 闵 六 冰冰 六 冰冰 六 
/ /六 闵 六 六 六 六 来 闵 闲 冰 六 六 六 六 率 浆 六 六 六 六 来 末 来 来 冰冰 冰冰 的 属性 六 来 玉 六 六 六 来 六 来 六 六 来 闵 六 六 闵 来 闵 六 来 冰 六 冰 六 闵 冰 闵 冰冰 六 
J /六 六 玉米 来 六 六 六 六 六 六 六 六 六 六 浆 六 六 闵 六 这 六 六 六 浆 六 六 六 六 冰 六 交 闵 六 六 六 六 六 率 闵 浆 六 六 六 六 六 六 冰冰 六 六 六 六 冰冰 六 浆 六 浆 六 交 冰 浆 六 冰冰 
println ("玉米 六 来 六 六 六 六 这 六 六 闵 米 米 六 六 六 六 六 六 康 闵 六 率 六 六 六 六 六 米 六 六 六 六 六 率 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 六 中 ) 
println ("属性 演示 ") 
println 《玉米 米 闵 闪 六 六 六 率 六 六 六 米 米 六 六 玉米 闵 闪 六 六 六 六 这 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 中 ) 
XZ/ 方法 二 
println(" 找 出 图 中 年 龄 大 于 30 的 顶点 方法 一 :") 


/** 

* 其 实 这 里 还 可 以 加 入 性 别 等 信息 ， 例 如 我 们 可 以 看 年 龄 大 于 30 岁 且 是 female 的 人 

*/ 
graph.vertices.filter { case (id, (name, age)) => age > 30}.collect. 
foreach { 

case (id, (name, age)) => println(s"$name is $age") 
// 方 法 二 
println(" 找 出 图 中 年 龄 大 于 30 的 顶点 方法 二 : ") 
graph.vertices.filter(v=>vV. 2. 2> 30) .collect.foreach(v => println 
1 
println 


// 边 操作 : 找 出 图 中 属性 大 于 5 的 边 

println(" 找 出 图 中 属性 大 于 5 的 边 : ") 

graph.edges.filter(e => e.attr > 5) .collect.foreach(e => println(s"$ 
{e.srcId} to S$S{e.dstId} att ${e.attr}")) 

println 


//triplets 操作，((srcId, srcAttr), (dstId, dstAttr), attr) 

println(" 列 出 所 有 的 triplets: ") 

for (triplet <- graph.triplets.collect) { 
printlin(s"${triplet.srcAttr. 1} likes ${triplet.dstAttr. 1}") 

} 

println 


println(" 列 出 边 属性 >5 的 triplets: ") 
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3 for (triplet <- graph.triplets.filter(t => t.attr > 5) .collect) { 
33- println(s"${triplet.srcAttr. 1} likes ${triplet.dstAttr. 1}") 

34. } 

< println 

机 

ei //Degrees 操作 

38. println(" 找 出 图 中 最 大 的 出 度 、 入 度 、 度 数 : ") 

< 收入 def max(a: (VertexId, Int), b: (VertexId, Int)): (VertexId, Int) = { 
40. if (a. 2 > b. 2) a else b 

41. } 

42. println("max of outDegrees:" + graph.outDegrees.reduce (max) + " max 


of inDegrees:" + graph.inDegrees.reduce (max) + " max of Degrees:" + 
graph.degrees.reduce (max)) 
43. println 


在 IDEA 中 运行 代码 ， 婚 恋 社 交 网 络 多 维度 分 析 实 战 图 的 属性 演示 结果 如 下 。 


1. Using Spark's default 1og4j profile: org/apache/spark/10g4j-defaults. 
properties 
2. 17/04/14 13:32:58 WARN NativeCodeLoader: Unable to load native-hadoop 


library for your platform... using builtin-java classes where applicable 
来 来 玉 玉 素 玉 来 来 求 来 求 来 来 来 玉 玉 玉 来 来 来 束 来 来 束 求 束 求 束 束 来 束 束 来 来 来 束 玉 来 来 来 求 束 束 来 来 来 求 来 束 求 求 求 来 求 来 来 求 来 


属性 演示 

米 米 闵 米 闵 米 玉米 六 六 玉米 闵 米 闵 米 米 冰 米 冰 米 米 六 六 六 六 六 六 六 六 六 六 六 玉米 闵 米 闵 玉 闵 玉米 冰 米 闵 冰 玉 六 六 冰冰 六 冰冰 冰冰 冰冰 
找 出 图 中 年 龄 大 于 30 的 顶点 方法 一 : 
David is 42 

Ed L355 

9. Fran ts 50 

10. Charlie is 65 

11. 找 出 图 中 年 龄 大 于 30 的 顶点 方法 二 : 
12. David is 42 

ed ss S55 

14. Fran is 50 

15. Charlie is 65 


17. 找 出 图 中 属性 大 于 5 的 边 : 
LO EE 
L905 to SeaktE 8 


21. 列 出 所 有 的 triplets: 
22. Bob likes Alice 
23. Bob likes David 
24. Charlie likes Bob 
25. Charlie likes Fran 
26. David likes Alice 
27. Ed likes Bob 

28. Ed likes Charlie 
29. Ed likes Fran 


31. 列 出 边 属性 >5 的 triplets: 

32. Bob likes Alice 

33. Ed likes Charlie 

34. 

35- 找 出 图 中 最 大 的 出 度 、 入 度 、 度 数 : 


36. max of outDegrees: (5,3) max of inDegrees: (2,2) max of Degrees: (2,4) 


二 全 
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18.18.2 ”婚恋 社交 网 络 多 维度 分 析 实 战 图 的 转换 操作 


婚恋 社交 网 络 多 维度 分 析 实战 图 的 转换 操作 对 婚恋 社交 图 的 顶点 、 边 进行 转换 操作 ; 
口 对 婚恋 社交 图 的 顶点 进行 转换 操作 ， 将 年 龄 加 上 10。 
口 对 婚恋 社交 图 的 边 进行 转换 操作 ， 将 用 户 点 击 的 次 数 乘 以 2。 
婚恋 社交 网 络 多 维度 分 析 实 战 图 的 转换 操作 具体 方法 实现 如 下 。 
(1) 对 婚恋 社交 图 的 顶点 进行 转换 操作 ， 将 年 龄 加 上 10。 使 用 图 的 mapVertices 方法 对 
(姓名 ,年 龄 )) ， 转 换 时 将 
年 龄 加 上 10，graph.mapVertices{ case (id, (name, age)) => (id, (name, age+10))}.vertices.collect 
处 理 后 返回 的 结果 类 型 是 Array[(VertexId, (VertexId, (String, PartitionID)))]。 使 用 foreach 遍 
历 Array 数组 中 每 个 元 素 时 ， 其 类 型 是 (VertexId, (VertexId, (String, PartitionID))， 数 组 中 的 
每 个 元 素 的 v._1 是 图 顶点 JP， 数 组 中 的 每 个 元 素 的 v_2 是 (VertexId, (String, PartitionID)， 
V._2._1 就 获取 到 图 顶点 ID，v._2. 2 就 获取 到 图 顶点 的 属性 〈 姓 名 ， 年 龄 ) ， 然 后 打印 输出 。 
(2) 对 婚恋 社交 图 的 边 进行 转换 操作 ， 将 用 户 点 击 的 次 数 乘 以 2。 使 用 图 的 mapEdges 
进行 转换 ， 将 e.attr*2 边 点 击 的 次 数 乘 以 2 就 可 以 了 。 
ee /六 六 六 六 六 六 六 六 六 六 六 六 六 六 水 闵 闵 来 六 六 六 六 来 闵 六 这 六 六 来 六 六 六 六 六 来 六 六 六 冰冰 六 六 六 六 闵 来 六 六 六 冰冰 六 六 冰冰 来 闵 冰冰 六 闵 来 六 冰冰 冰冰 


六 水 玉米 闵 六 冰冰 来 六 车 换 操作 


/玉米 米 六 六 米 六 六 六 六 六 六 率 六 六 六 米 六 六 六 六 六 六 六 六 六 来 闵 兴 六 六 六 六 六 率 米 六 六 六 六 六 玉米 闵 六 闵 六 六 六 六 六 六 玉米 六 六 六 六 六 六 六 米 闵 六 六 六 














作 2 JP 工 斌 nm 七 | ("六 六 六 六 率 来 闪闪 率 素 来 素 闪 六 闪闪 闪闪 率 于 素 素 素 率 率 率 闪 来 闪闪 素 闪 闪闪 率 六 这 六 这 闪闪 闪闪 来 闪 率 浆 闵 浆 站 ) 

3 Println (" 转 换 操作 ") 

- Prin 七 nn ("六 六 六 六 玉 素 来 闪 素 于 素 素 闪 闵 素 素 闪闪 素来 素 六 闪闪 六 率 闪 闪闪 素 素 闪闪 闪闪 素 六 闪闪 闪闪 闪闪 闪闪 六 闪闪 闪 闵 六 站 ) 

本 println ("顶点 的 转换 操作 ， 顶 点 age + 10: ") 

6 graph.mapVertices{ case (id, (name, age)) => (id, (name, age+10))}. 
vertices.collect.foreach(v => println(s"${v. 2. 1} is ${v. 2. 2}")) 

这 println 

8. Println(" 边 的 转换 操作 ， 边 的 属性 *2: ") 

Oe graph .mapEdges (e=>e.attr*2) .edges .collect.foreach(e => println(s"$ 


{e.srcId} to S${e.dstId} att ${e.attr}")) 
1305 println 
11. 


在 IDEA 中 运行 代码 ， 婚 恋 社交 网 络 多 维度 分 析 实 战 图 的 转换 操作 结果 如 下 。 
了 。 。 冰冰 冰 来 素 玉 来 玉 素来 素来 事 玉 素来 玉 素 事 素 来 求 素 玉 六 玉 来 来 束 束 素来 求 素 素 束 束 玉 来 求 求 玉 求 求 事 束 素 素 束 束 事 束 琅 求 来 来 束 素 


转换 操作 


六 洲 六 率 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 认 当 六 六 六 六 六 六 六 六 六 六 六 六 率 六 六 六 六 六 六 六 六 六 六 六 闵 六 率 六 六 六 这 六 六 六 六 六 


疲 

区) 

4. 顶点 的 转换 操作 ， 顶 点 age + 10: 
Sa 4 1s (David52) 
6 

8 


1 is (Alice,38) 
5 is (Ed,65) 
. 6 is (Fran,60) 
9. 2 is (Bob,37) 
0. 3 is 《Charle75) 
:ht 


12， 边 的 转换 操作 ， 边 的 属性 *2: 
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SO SEE 
14. 2 to 4 att 4 
LS 2 tc 
16s 3 to 6 att sé 
LT a to 1 att 2 
8 5 to atEE 4 
9 5 Eo J Abe 6 
S00 SOO REG 


18.18.3 婚恋 社交 网 络 多 维度 分 析 实 战 图 的 结构 操作 


婚恋 社交 网 络 多 维度 分 析 实 战 图 的 结构 操作 实现 以 下 需求 : 

口 婚恋 社交 图 中 用 户 的 年 龄 大 于 30 岁 的 子 图 。 

口 列 出 婚恋 社交 图 中 用 户 的 年 龄 大 于 30 岁 的 子 图 的 所 有 项 点 。 

口 列 出 婚恋 社交 图 中 用 户 的 年 龄 大 于 30 岁 的 子 图 的 所 有 边 。 

婚恋 社交 网 络 多 维度 分 析 实 战 图 的 结构 操作 具体 方法 实现 如 下 : 

(1) 婚恋 社交 图 中 使 用 graph.subgraph 方法 对 年 龄 大 于 30 岁 的 用 户 进行 结构 转换 。 
subgraph 方法 中 有 两 个 传 入 参数 ， 第 一 个 参数 是 边 的 谓词 函数 epred， 这 里 没有 传 入 参数 ; 第 
二 个 参数 是 顶点 的 谓词 函数 vpred, 它 是 一 个 匿名 函数 ,vpred 函数 的 传 入 参数 类 型 是 (VertexId， 





VD 姓名, 年龄) ) ， 因 此 vd._2 是 图 顶点 属性 的 第 二 个 元 素 年龄) ，vd._2 >=30 就 获取 到 
图 顶点 属性 中 年 龄 大 于 30 岁 的 用 户 。vpred 函数 的 返回 结果 为 布尔 值 ， 最 终生 成 年 龄 大 于 30 
岁 的 用 户 的 子 图 。 

(2) 列 出 婚恋 社交 图 中 用 户 的 年 龄 大 于 30 岁 的 子 图 的 所 有 顶点 。 在 大 于 30 岁 的 用 户 的 
子 图 中 遍历 打印 顶点 信息 。 这 里 subGraph.vertices.collect 的 类 型 是 Array[(VertexId, (String, 


PartitionID))]， 即 顶点 了 PP，《〈 姓 名， 年 龄 } ) 。 使 用 foreach 遍历 数组 的 元 素 ，v._1 是 图 项 
点 也 ，v._2 是 图 项 点 属性 ，v._2._1 是 图 项 点 属性 的 姓名 ，v._2._ 2 是 图 顶点 属性 的 年 龄 ， 最 
后 打印 输出 。 


(3) 列 出 婚恋 社交 图 中 用 户 的 年 龄 大 于 30 岁 的 子 图 的 所 有 边 。 在 大 于 30 岁 的 子 图 裔 历 
打印 边 的 信息 。 使 用 subGraph.edges.collect 结果 的 类 型 是 Array[Edge[PartitionID]]，e.srcId 获 


取 边 的 源 顶 点 ，e.dstId 获取 边 的 目标 项 点 ，e.attr 获取 边 的 属性 用 户 点 击 的 次 数 ， 使 用 foreach 
循环 遍历 打印 输出 。 


RE ye cr EB 品 7 
婚恋 社交 网 络 多 维度 分 析 实 战 图 的 结构 操作 代码 如 下 。 
/ / 六 六 六 六 六 六 六 来 六 六 六 家 六 六 六 六 六 六 六 六 六 六 六 六 六 康 六 六 六 六 六 六 六 六 六 六 六 六 率 闵 来 闵 六 六 六 六 六 六 六 六 六 来 六 冰冰 六 六 六 六 来 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 
/ /六 六 六 六 六 六 来 六 六 闪 宁 六 站 素 率 床 闵 六 站 来 六 衬 六 来 结构 -操作 
/ / 六 六 六 六 六 六 来 闵 六 六 这 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 来 闵 闵 率 六 来 六 六 六 六 六 六 六 六 六 六 六 闵 闵 闵 六 六 六 六 六 六 六 六 六 六 六 六 玉米 六 六 六 六 六 六 六 玉米 六 六 
println ("六 六 六 来 六 六 六 来 六 六 六 六 六 闵 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 率 闵 六 六 六 六 六 闵 六 六 六 六 六 六 玉 闵 六 六 六 六 来 六 六 六 来 六 六 六 六 六 六) 
println ("结构 操作 ") 
println 《六 来 玉米 六 六 六 六 六 素 妆 六 六 六 率 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 来 闵 玉 六 六 闵 闵 米 冰 六 六 六 六 六 六 六 六 冰冰 1 ) 
println ("顶点 年 纪 >30 的 子 图 : ") 
val subGraph = graph.subgraph(vpred = (id, vd) => vd. 2 >= 30) 


cmwm 必 mw 


2 
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全 println(" 子 图 所 有 顶点 : ") 

05 subGraph.vertices.collect.foreach(v => println(s"${v. 2. 1} is 
| 

Fh println 


了 25 Println (" 子 图 所 有 边 : ") 


3. subGraph.edges.collect .foreach(e => println(s"${e.srcId} to ${e.dstId} 


att ${e.attr}")) 
14. println 


在 IDEA 中 运行 代码 ， 婚 恋 社交 网 络 多 维度 分 析 实 战 图 的 结构 操作 结果 如 下 。 


了 。 。 来 束 玉 水 素 玉 素 求 束 求 求 束 束 求 束 玉 光束 素来 玉 素 玉 冰 求 束 束 求 束 束 束 束 水 束 束 束 束 求 束 束 束 玉 求 求 束 束 束 束 水 束 求 束 束 求 求 六 水 水 


2 结构 操作 
| 率 闵 闵 闵 闵 闵 米 闵 闵 玉 玉米 闵 六 六 玉米 玉 闵 玉米 闵 素 闵 来 闵 闵 米 闵 冰 玉米 米 素 玉 素来 闵 来 这 六 六 永 玉 率 迷 率 六 炒米 水 永 闵 六 六 六 六 六 
4. 顶点 年 纪 >30 的 子 图 : 

5. 子 图 所 有 项 点 : 

6. David is 42 

7 Ed is 55 

8. Fran is 50 

9. Charlie is ‘65 


11. 子 图 所 有 边 : 
le ho 


L139 Eo 3 tt 8 
dd Eonor at 


18.18.4 婚恋 社交 网 络 多 维度 分 析 实战 图 的 连接 操作 


婚恋 社交 网 络 多 维度 分 析 实 战 图 的 连接 操作 实现 以 下 需求 。 


口 婚恋 社交 网 络 中 连接 图 的 属性 计算 : 用 户 被 多 少 人 关注 ， 及 用 户 关 注 了 多 少 人 。 
口 婚恋 社交 网 络 中 连接 图 的 属性 计算 : 列 出 用 户 关 注 人 次 和 被 人 关注 的 人 次 相同 的 


用 户 。 
婚恋 社交 网 络 多 维度 分 析 实 战 图 的 连接 操作 具体 方法 实现 如 下 。 


图 项 点 的 属性 包括 (姓名 ,年 龄 ,入 度 ,出 度 )， 其 中 的 入 度 表示 多 少 人 关注 了 用 户 ， 出 度 表示 


用 户 关注 了 多 少 人 。 


(2) 创建 一 个 新 图 initialUserGraph， 顶 点 VD 的 数据 类 型 为 User， 并 从 原始 graph 做 顶 
点 类 型 转换 ,将 原来 的 项 点 属性 信息 (姓名 , 年 龄 ) 转换 应 用 到 User 的 case class 上， 转换 
为 新 的 顶点 属性 信息 (姓名 ,年 龄 ,入 度 ,出 度 ) ， 入 度 、 出 度 的 初始 值 设置 为 0。 

(3) 新 图 initialUserGraph 与 inDegrees 、outDegrees (RDD ) 进行 连接 ， 并 修改 








initialUserGraph 中 的 inDeg 值 、outDeg 值 ， 创 建新 的 用 户 图 userGraph， 上 








] 户 图 userGraph 的 


顶点 属性 格式 为 (姓名 ,年 龄 ,入 度 ,出 度 ) ， 其 中 ， 入 度 、 出 度 不 再 为 初始 值 0， 已 经 计算 为 实 


际 的 值 。 


口 计算 入 度 〈 多 少 人 关注 了 用 户 ) : 对 于 图 initialUserGraph， 使 用 outerJoinVertices 算 
子 对 initialUserGraph_ inDegrees 进行 关联 ， 其 中 initialUserGraph.inDegrees 的 数据 类 
型 是 VertexRDD[Int]， 同 时 VertexRDD[Int] 继 承 自 RDD[(VertexId, VD)]; 使 用 模式 
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匹配 ， 转 换 计算 图 的 新 的 项 点 属性 (姓名 ,年 龄 ,入 度 ,出 度 ) ， 其 中 ， 姓 名 、 年 龄 、 出 
度 从 图 initialUserGraph 中 直接 沿用 原来 的 值 ; 入 度 (inDegOpt) 是 图 initialUserGraph 
与 inDegrees 计算 后 的 值 ,inDegOpt 是 一 个 可 选 值 Option， 如 果 inDegOpt 能 取 到 值 ， 
就 填 入 到 图 项 点 属性 的 入 度 里 面 ， 如 果 inDegOpt 没有 值 ， 就 仍然 赋值 0。 

口 计算 出 度 ( 用 户 关注 了 多 少 人 ) : 上 述 已 在 图 顶点 属性 中 填 好 了 入 度 ， 接 下 来 在 图 
顶点 属性 中 填写 出 度 信息 。 对 于 图 initialUserGraph， 使 用 outerJoinVertices 算 子 对 
initialUserGraph.outDegrees 进行 关联 ， 其 中 ，initialUserGraph.outDegrees 的 数据 类 型 
是 VertexRDD[Int]， 同 时 VertexRDD[Int] 继 承 自 RDD[(VertexId, VD)]; 使 用 模式 匹 
配 ， 转 换 计算 图 的 新 的 项 点 属性 (姓名 ,年 龄 ,入 度 ,出 度 )， 其 中 姓名 、 年 龄 、 入 度 从 
图 initialUserGraph 中 直接 沿用 原来 的 值 ; 出 度 (outDegOpt) 是 图 initialUserGraph 
与 outDegrees 计算 后 的 值 ，outDegOpt 是 一 个 可 选 值 Option， 如 果 outDegOpt 能 取 到 
值 ， 就 填 入 到 图 顶点 属性 的 出 度 里 面 ， 如 果 outDegOpt 没有 值 ， 就 仍然 赋值 0。 

(4) 打印 输出 婚恋 社交 网 络 中 连接 图 的 属性 : 用 户 被 多 少 人 关注 ， 及 用 户 关注 了 多 少 人 。 
userGraph.vertices.collect 的 结果 类 型 是 Array[(VertexId, User)]， 使 用 foreach 遍历 数组 中 的 每 
一 个 元 素 ， 其 中 v._1 是 图 顶点 ID，v._2 是 图 项 点 属性 case class 用 户 (User) ， 依 次 使 用 
V._2.name、V. 2.inDeg、v. 2.outDeg 获取 姓名 、 入 度 〈 用 户 被 多 少 人 关注 ) 、 出 度 〈 用 户 关 
注 了 多 少 人 ) ， 打 印 输出 。 

(5) 打印 输出 婚恋 社交 网 络 中 连接 图 的 属性 : 列 出 用 户 关 注 人 次 和 被 人 关注 的 人 次 相同 
的 用 户 。 首 先 使 用 uinDeg 一 u.outDeg 过 滤 出 图 顶点 属性 中 入 度 、 出 度 相 同 的 顶点， 过滤 以 
后 ，collect 算 子 计算 的 结果 类 型 是 Array[(VertexId, UseD]， 使 用 foreach 循环 遍历 数组 中 的 元 
素 ， 通 过 模式 匹配 到 顶点 属性 信息 用 户 property (姓名 ,年 龄 ,入 度 ,出 度 ) ，property.name 打印 
出 用 户 的 姓名 。 

婚恋 社交 网 络 多 维度 分 析 实 战 图 的 连接 操作 代码 如 下 。 


/六 六 六 六 六 六 六 六 六 六 弟 冰 六 六 六 六 率 闵 六 六 六 六 六 六 六 六 六 率 闵 六 六 六 六 六 六 六 六 六 率 闵 六 六 六 六 六 闲 六 六 六 宗 闵 六 六 六 六 六 北宁 六 六 六 六 六 六 六 六 六 闵 闲 六 玉米 六 六 六 六 六 冰冰 六 














/ /六 闵 六 六 六 六 六 六 六 六 六 六 来 六 六 六 六 冰 闵 六 六 六 冰冰 六 六 六 六 六 六 连接 操作 
/来 六 六 六 六 六 六 六 六 六 率 率 六 六 六 六 六 六 六 六 来 闵 来 闲 闵 六 六 这 六 六 六 六 六 六 六 六 冰冰 来 闵 闲 闵 六 六 六 六 六 六 六 来 六 六 六 冰冰 闪 闵 六 六 冰冰 六 六 六 六 六 冰冰 闵 来 闲 闵 冰冰 六 六 冰冰 六 冰冰 
println [1 玉米 六 六 六 六 六 素来 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 冰 六 六 六 六 率 冰 六 六 六 六 六 六 六 中) 
println ("连接 操作 ") 
println ( 必 玉 米 六 六 六 六 六 来 玉 玉 六 六 六 六 闵 玉米 六 六 来 闵 闵 六 六 六 闲 六 六 六 六 六 六 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 玉米 六 六 六 冰冰 冰冰 六 六 玉米 六 中 ) 
val inDegrees: VertexRDD[Int] = graph.inDegrees 
case class User (name: String, age: Int, inDeg: Int, outDeg: Int) 


FFPieomamm 必 wmwN 


0 // 创 建 一 个 新 图 ， 顶 点 VD 的 数据 类 型 为 ser， 并 从 Graph 做 类 型 转换 
证 val initialUserGraph: Graph[User，Int] = graph.mapVertices { case (id， 
(name，age)) => User(name, age, 0, 0)} 


2 
EE //initialUserGraph 与 inDegrees、outDegrees (RDD) 进行 连接 ， 并 修改 
//initialUserGraph 中 的 inDeg 值 和 outDeg 值 
14. val userGraph = initialUserGraph.outerJoinVertices (initialUserGraph. 
inDegrees) { 

入 case (id, u, inDegOpt) => User (u.name, u.age, inDegOpt .getOrElse (0), 
u.outDeg) 

I }.outerJoinVertices (initialUserGraph.outDegrees) { 

DT case (id, u, outDegOpt) => User(u.name, u.age, u.inDeg, outDegOpt. 
getOrElse (0)) 

85 } 
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19. 

20. println ("连接 图 的 属性 : ") 

2 userGraph.vertices.collect.foreach(v => println(s"${v. 2.name} inDeg: 
${v. 2.inDeg} outDeg: ${v. 2.0outDeg}")) 

22 println 

23- 

Za println ("出 度 和 入 度 相同 的 人 员 : ") 

3 userGraph.vertices.filter { 

A case (id, u) => u.inDeg == u.outDeg 

Vd }.collect.foreach { 

8 case (id, property) => println (property.name) 

2 } 


S08 println 
在 IDEA 中 运行 代码 ， 婚 恋 社交 网 络 多 维度 分 析 实 战 图 的 连接 操作 结果 如 下 。 


了 。 六 闵 来 洲 水 米 六 六 六 六 六 六 六 六 来 素 来 六 六 六 六 玉米 素 闵 玉 六 六 六 素来 来 素 闵 六 六 来 闵 六 六 床 玉 玉 六 六 六 闵 来 闵 来 六 六 六 六 六 玉 六 六 来 六 六 六 六 六 六 六 六 六 六 六 冰冰 


连接 操作 


六 六 率 这 六 六 炒米 闵 六 来 闵 闵 六 六 六 率 闵 这 六 迷 米 率 六 六 玉米 六 六 素 闵 六 六 率 六 六 六 米 玉 来 六 六 六 六 率 闵 率 闵 闵 洲 玉米 闵 米 玉 六 六 六 六 六 来 六 六 六 六 玉米 六 六 六 六 冰冰 六 


2 
3 
4. ”连接 图 的 属性 : 

5. David inDeg: 1 outDeg: 1 
6. Alice inDeg: 2 outDeg: 0 
7. Ed inDeg: 0 outDeg: 3 

8. Fran inDeg: 2 outDeg: 0 

9. Bob inDeg: 2 outDeg: 2 

10. Charlie inDeg: 1 outDeg: 2 


12 .出 度 和 入 度 相同 的 人 员 : 
13. David 
14. Bob 


18.18.5 ”婚恋 社交 网 络 多 维度 分 析 实 战 图 的 聚合 操作 


婚恋 社交 网 络 多 维度 分 析 实 战 图 的 聚合 操作 实现 以 下 需求 。 

口 在 婚恋 社交 图 中 找 出 年 龄 最 大 的 追求 者 。 

口 在 婚恋 社交 图 中 找 出 年 龄 最 小 的 追求 者 。 

口 在 婚恋 社交 图 中 找 出 追求 者 的 平均 年 龄 。 

婚恋 社交 网 络 多 维度 分 析 实 战 图 的 聚合 操作 具体 方法 实现 如 下 。 

(1) 在 婚恋 社交 图 中 找 出 年 龄 最 大 的 追求 者 : 使 用 图 的 aggregateMessages 方法 ， 在 婚恋 
社交 图 中 ，aggregateMessages 算 子 发 送 到 其 他 每 个 图 项 点 的 消息 类 型 是 (String,Int)， 其 含 
是 (姓名 ， 年 龄 )。 

口 把 sendMsg 函数 理解 成 map-reduce 中 的 map: 将 源 顶 点 的 属性 发 送 给 目标 顶点 , map 

过 程 。 别 名 为 triplet 三 元 组 的 数据 类 型 是 EdgeContext[(String, PartitionID), PartitionID， 
(String, PartitionID)]， EdgeContext 中 每 个 元 素 的 含义 分 别 是 顶点 属性 (姓名 , 年龄) ， 
边 属 性 (用 户 点 击 的 次 数 ) ，aggregateMessages 是 发 送 到 其 他 每 个 图 顶点 的 消息 类 
型 (姓名 , 年 龄 )。 EdgeContext 包含 5 个 属性 方法 : 源 顶 点 IDsrcId、 目标 顶点 IDdstId、 
源 顶 点 属性 srcAttr、 目 标 顶 点 属性 dstAttr、 边 属性 attr。triplet.srcAttr 获取 源 顶 点 的 
属性 ， 其 格式 为 (姓名 ， 年 龄 ) ， 因 此 ，triplet.srcAttr. 1 是 源 顶点 属性 的 姓名 ， 

triplet.srcAttr. 2 是 源 顶 点 属性 的 年 龄 。 通 过 triplet.sendToDst 将 (姓名 ,年龄 ) 发送 
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消息 到 图 的 每 个 顶点 进行 计算 。 

口 把 mergeMsg 函数 理解 成 map-reduce 中 的 reduce: 汇聚 计算 得 到 最 大 追求 者 , reduce 
过 程 。mergeMsg 函数 将 收 到 的 消息 (姓名 ， 年龄 ;进行 合并 汇聚 ， 比 较 两 个 消息 的 
第 二 个 元 素 年 龄 ， 将 年 龄 大 的 用 户 返 回 。 最 终 计 算出 每 个 顶点 年 龄 最 大 的 追求 者 的 
VertexRDD， 创 建生 成 oldestFollower。 

接 下 来 将 用 户 图 userGraph 的 顶点 vertices 和 oldestFollower VertexRDD[(String，Inb] 进 
行 左 关联 leftJoin。 将 (id, user，optOldestFollower) 进 行 模式 匹配 ， 其 中 ，id 是 userGraph 图 的 
图 顶点 ID，user 是 userGraph 图 的 图 顶点 属性 (姓名 ,年 龄 ,入 度 ,出 度 ) ，optOldestFollower 的 
类 型 是 可 选 类 型 Option[(String, PartitionID)]， 格 式 为 〈 姓 名， 年 龄 ) ; 如 果 模 式 匹配 结果 为 
空 ， 则 说 明 此 用 户 顶 点 没有 一 个 追求 者 ， 就 将 字符 串 “$fusername} does not have any 
followers.” 作 为 新 的 图 顶点 的 属性 返回 :如 果 Cname，age) 能 匹配 上 ， 就 将 年 龄 最 大 的 追求 者 
name 和 userGraph 图 的 图 顶点 属性 user.name 的 用 户 姓名 拼接 成 字符 串 “$ {name} is the oldest 
follower of $fusername} ”， 作 为 新 的 图 顶点 的 属性 返回 。 此 ，userGraph.vertices. 
leftJoin(oldestFollower) 创 建生 成 的 图 顶点 格式 为 VertexRDD[String]， 这 里 String 的 内 容 就 是 
上 述 的 字符 串 。 使 用 collect 算 子 收集 数据 ， 然 后 使 用 foreach 循环 遍历 打印 输出 婚恋 社交 图 
中 每 个 用 户 年 龄 最 大 的 追求 者 。 

(2) 在 婚恋 社交 图 中 找 出 年 龄 最 小 的 追求 者 ， 实 现 思 路 与 在 婚恋 社交 图 中 找 出 年 龄 最 大 
的 追求 者 相同 ， 在 reduce 过 程 中 ， 将 最 小 追求 者 返回 就 可 以 ， 这 里 不 再 袭 述 。 

(3) 在 婚恋 社交 图 中 找 出 追求 者 的 平均 年 龄 : 使 用 图 (graph) 的 aggregateMessages 方 
法 ， 在 婚恋 社交 图 中 ， 这 里 的 消息 发 送 数据 类 型 不 同 于 找 出 年 龄 最 大 、 最 小 的 追求 者 的 消息 
类 型 ， 因 为 我 们 需要 对 用 户 追 求 者 进行 计数 ， 还 需要 获取 用 户 追 求 者 的 年 龄 信息 ， 因 此 ， 
aggregateMessages 算 子 发 送 到 其 他 每 个 图 项 点 的 消息 类 型 是 (Int, Double)， 其 含义 是 (计数 1 
次 ， 年 龄 ) 。 

口 把 sendMsg 函数 理解 成 map-reduce 中 的 map: 将 源 顶 点 的 属性 发 送 给 目标 项 点 ， 
map 过 程 。 别 名 为 triplet 三 元 组 的 数据 类 型 是 EdgeContext[(String，PartitionID)， 
PartitionID, (PartitionID, Double)], EdgeContext 中 每 个 元 素 的 含义 分 别 是 顶点 属性 ( 姓 
名 ， 年龄 )， 边 属性 (用 户 点 击 的 次 数 ) ，aggregateMessages 是 发 送 到 其 他 每 个 图 
顶点 的 消息 类 型 (计数 1 次 , 年 龄 )。 EdgeContext 包含 5 个 属性 方法 : 源 顶 点 IDsrcId、 
目标 项 点 IDdstId\ 源 顶点 属性 srcAttr\ 目 标 顶点 属性 dstAttr、 边 属性 attr。triplet.srcAttr 
获取 源 项 点 的 属性 ， 其 格式 为 〈《 姓 名， 年 龄 ) ， 因 此 ，tripletsrcAttr._ 1 是 源 顶点 属 
性 的 姓名 ，triplet.srcAttr. 2 是 源 顶 点 属性 的 年 龄 。 通 过 triplet.sendToDst 将 (计数 1 
次 ， 年 龄 ) 发 送 消息 到 图 的 每 个 顶点 进行 计算 。 

口 把 mergeMsg 函数 理解 成 map-reduce 中 的 reduce: 汇聚 计算 ， 得 到 追求 者 的 数量 和 
总 年 龄 。mergeMsg 函数 将 收 到 的 消息 〈 计 数 1 次 ， 年 龄 ) 进行 合并 汇聚 ， 比 较 两 个 
消息 , 分 别 将 两 个 消息 的 第 一 个 元 素 计数 次 数 进行 累加 a._1+b._1; 将 两 个 消息 的 第 
二 个 元 素 年 龄 进行 累加 a._2+b. 2, 返回 用 户 追 求 者 的 个 数 和 追求 者 的 总 年 龄 ， 内容 
为 (计数 总 次 数 ， 累 加 总 年 龄 )。 

graph.aggregateMessages 计算 以 后 生成 的 数据 类 型 是 VertexRDD[(PartitionID, Double)]， 
然后 使 用 mapValues 算 子 对 (id, p) 进 行 转换 , 从 (图 顶点 VertexId, 图 顶点 属性 p (计数 总 次 数 ， 
累加 总 年 龄 ) ) 中 获取 p._1 计数 总 次 数 及 p._ 2 累加 总 年 龄 ， 使 用 p. 2/p._1 计算 出 追求 者 的 
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平均 年 龄 。 





最 终 创 建生 成 averageAge: VertexRDD[Double]。 





接 下 来 将 用 户 图 userGraph 的 顶点 vertices 和 averageAge: VertexRDD[Double] 进行 左 关 
联 leftJoin。 将 (id, user, optAverageAge) 进 行 模式 匹配 ， 其 中 id 是 userGraph 图 的 图 顶点 ID， 
user 是 userGraph 图 的 图 项 点 属性 (姓名 ,年 龄 ,入 度 ,出 度 ) ， optAverageAge 的 类 型 是 可 选 类 
型 Option[Double]， 格 式 为 (追求 者 的 平均 年 龄 ); 如 果 模 式 匹配 结果 为 空 ， 则 说 明 此 用 户 
顶点 没有 一 个 追求 者 ， 就 将 字符 串 “$ {user.name} does not have any followers.” 作 为 新 的 图 顶 


点 的 属性 返回 











; 如果 Some(avgAge) 能 匹配 上 ， 就 将 追求 者 的 平均 年 龄 avgAge 和 userGraph 


图 的 图 项 点 属性 username 的 用 户 姓 名 拼接 成 字符 串 "The average age of $ {user.name}\'s followers 


ls $avgAge.", 


作为 新 的 图 项 点 的 属性 返回 。 因 此 ，userGraph.vertices.leftJoin(averageAge) 创 建生 





成 的 图 顶点 格式 为 : VertexRDD[String]， 这 里 ，String 的 内 容 就 是 上 述 的 字符 串 。 使 用 collect 
算 子 收集 数据 ， 然 后 使 用 foreach 循环 遍历 打印 输出 婚恋 社交 图 中 每 个 用 户 追 求 者 的 平均 


年 龄 。 


婚恋 社交 网 络 多 维度 分 析 实 战 图 的 聚合 操作 代码 如 下 。 





站 println ( 四 来 求 来 来 求 来 来 来 来 来 束 束 束 求 束 求 来 来 来 来 求 来 束 求 束 束 来 束 束 来 来 来 来 来 束 求 求 来 束 求 来 来 来 来 求 束 求 求 来 求 求 求 来 来 来 求 求 来 求 求 用 ) 
2 Println (" 聚 合 操作 ") 
< 项 JPILn 七 ]m ("六 六 六 六 六 六 六 水 浆 闵 六 六 浆 浆 浆 浆 交 浆 闪 浆 闵 浆 浆 冰冰 冰冰 闪闪 浆 六 浆 闪光 六 浆 六 六 冰冰 六 六 冰冰 六 冰冰 水 浆 冰冰 冰冰 四 
4. println(" 找 出 年 龄 最 大 的 追求 者 :") 
5 val oldestFollower: VertexRDD[ (String, Int)] = graph.aggregateMessages 
[(String, Int)]( 
6. // 将 源 项 点 的 属性 发 送 给 目标 顶点 ，map 过 程 
TT triplet => { // Map 方 法 
8. // 将 消息 发 送 到 包含 姓名 和 年 龄 的 目标 顶点 
加 triplet .sendToDst (triplet.srcAttr. 1, triplet.srcAttr. 2) 
0: ] ， 
1. // 得 到 年 龄 最 大 的 追求 者 ，reduce 过 程 
和 25 (a, b) => if (a. 2 > b. 2) a else b 
Bs ) 
4. 
三 
6. userGraph .vertices.leftJoin(oldestFollower) { (id, user, optOldest 
Follower) => 
Ee optOldestFollower match { 
8 case None => s"${user.name} does not have any followers." 
网 case Some ( (name, age)) => s"${name} is the oldest follower of 
${user.name}." 
20 
Zs } .collect.foreach { case (id, str) => println(str)} 
2 println 
区 3 
i println 《六 六 六 六 六 六 六 六 率 洲 洲 闵 六 六 六 六 六 六 来 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 率 闵 闵 玉 来 六 六 六 闵 六 六 六 六 站 六 六 冰冰 六 路 ) 
2 println(" 找 出 年 龄 最 小 的 追求 者 :") 
26% val youngestFollower: VertexRDD[ (String, Int)] = graph.aggregateMessages 
[(string, Int)]( 
Zn // 将 源 顶 点 的 属性 发 送 给 目标 顶点 ，map 过 程 
28. triplet => { //Map Function 
29. //Send message to destination vertex containing name and age 
SO triplet.sendToDst(triplet srcAttr lr triplet. arcaAttre a) 
31. }, 
32. // 得 到 年 龄 最 小 的 追求 者 ，reduce 过 程 
改名 (a bb) = 1 (a 2 > bi 2 belse a 
34. ) 
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45 

36. 

局 襄 userGraph.vertices.leftJoin(youngestFollower) { (id, user, 

optYoungestFollower) => 

385 optYoungestFollower match { 

39. case None => s"${user.name} does not have any followers." 

40. case Some ( (name，age)) => s"${name} is the youngest follower of 
${user.name}." 

41. } 

人 } .collect.foreach { case (id, str) => println(str)} 

3 println 

44. 

45. // 找 出 追求 者 的 平均 年 龄 

46. println(" 找 出 追求 者 的 平均 年 龄 :") 

47. Val averageAge: VertexRDD[Double] = graph.aggregateMessages[ (Int, 
Double)]( 

48. // 将 源 项 点 的 属性 (1，Age) 发 送 给 目标 项 点，map 过 程 

49. triplet => { //Map Function 

Soe // 将 消息 发 送 到 包含 姓名 和 年 龄 的 目标 项 点 

Ss triplet.sendToDst ((1, triplet.srcAttr. 2.toDouble)) 

52: Fr 

S32 // 得 到 追求 者 的 数量 和 总 年 龄 

54. 人 

二 三 ) .mapValues((id，P) => p. 2 / P._1) 

与 后 

i userGraph.vertices.leftJoin (averageAge) { (id, user, optAverageAge) 
=> 

S85 optAverageAge match { 

3 case None => s"${user.name} does not have any followers." 

60 . case Some (avgRge) => s"The average age of ${user.name}\'s 

followers is $avgAge." 

Gl } 

62. } .collect.foreach { case (id, str) => println(str)} 

63 . println 


在 IDEA 中 运行 代码 ， 婚 恋 社交 网 络 多 维度 分 析 实 战 图 的 聚合 操作 结果 如 下 。 
ki 六 六 六 玉米 冰冰 玉米 冰冰 六 六 六 冰冰 冰冰 六 六 六 六 冰冰 六 冰冰 六 亲 六 六 冰冰 玉 玉米 六 闵 冰冰 六 六 冰冰 冰冰 六 冰冰 冰冰 六 六 六 冰冰 六 六 
2. 聚合 操作 

3 米 米 闵 米 六 玉米 米 六 六 玉米 闵 米 冰 玉米 闵 米 冰 六 米 玉 闵 冰冰 六 玉米 六 六 六 六 玉米 六 六 闵 玉 闵 玉米 闵 米 六 六 六 六 米 闵 来 六 冰冰 六 冰 米 冰 
4. 找 出 年 龄 最 大 的 追求 者 : 

5. Bob is the oldest follower of David. 

6. David is the oldest follower of Alice. 

7. Ed does not have any followers. 

8. Charlie is the oldest follower of Fran. 

9. Charlie is the oldest follower of Bob. 

10. Ed is the oldest follower of Charlie. 


本 局 六 六 六 六 六 六 六 六 玉米 六 六 玉米 六 玉米 闵 米 六 六 玉米 玉米 六 六 六 六 六 六 六 玉米 冰冰 玉米 玉米 闵 六 冰 玉 六 玉米 冰 玉 玉米 六 冰冰 冰冰 六 六 
13. 找 出 年 龄 最 小 的 追求 者 : 

14. Bob is the youngest follower of David. 

15. Bob is the youngest follower of Alice. 

16. Ed does not have any followers. 

17. Ed is the youngest follower of Fran. 

18. Ed is the youngest follower of Bob. 

19. Ed is the youngest follower of Charlie. 


21. 找 出 追求 者 的 平均 年 龄 : 


“ls 
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22. The average age of David's followers is 27.0. 
23. The average age of Alice's followers is 34.5. 
24. Ed does not have any followers. 

25. The average age of Fran's followers is 60.0. 
26. The average age of Bob's followers is 60.0. 

27. The average age of Charlie's followers is 55.0. 


18.18.6 ”婚恋 社交 网 络 多 维度 分 析 实 战 图 的 实用 操作 





距离 


婚恋 社交 网 络 多 维度 分 析 实 战 图 的 实用 操作 具体 方法 实现 如 下 。 


口 消息 类 型 为 Double 类 型 。 
口 顶点 谓词 函数 vprog: 顶点 程序 ， 运行 在 每 个 顶点 上 ， 根 据 接收 的 消息 计算 新 的 顶点 


按照 math.min(dist newDist) 获取 源 顶 点 到 图 项 点 的 距离 及 收 到 消息 中 距离 的 最 
小 值 。 

口 sendMsg 函数 ， 相 当 于 map-reduce 中 的 map， 这 里 计算 权重 值 ，triplet 的 数据 类 型 
为 EdgeTriplet[Double, PartitionID]，EdgeTriplet 类 中 包含 源 顶点 属性 srcAttr、 目 标 项 
点 属性 dstAttr, EdgeTriplet[VD, ED] 继承 了 Edge[ED] 类 , 因此 EdgeTriplet 类 还 包含 
了 边 属性 atr。 如 果 triplet.srcAttr 加 上 边 属性 triplet.attr 小 于 triplet.dstAttr， 则 返回 

-个 Iterator〈 目 标 顶 点 ID， 消 息 〈 最 短 距 离 ) ) 。 和 否则 返回 Iterator.empty 空 值 。 

口 mergeMsg 函数 ， 相 当 于 map-reduce 中 的 reduce: 这 里 使 用 (a, b) => math.min(a, b) 
计算 出 两 个 消息 中 的 最 短 距 离 。 

(3) 打印 输出 图 中 顶点 5 到 图 中 各 顶点 的 最 短 距离 。 

婚恋 社交 网 络 多 维度 分 析 实 战 图 的 实用 操作 代码 如 下 。 





荆 。 /六 玉米 玉 六 六 率 六 六 六 六 六 六 六 率 六 六 六 六 这 六 六 六 六 六 六 六 六 来 六 六 水 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 冰 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 六 六 冰 

2 。 /六 六 六 玉 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闪 闵 人 用 捍 作 

3 。 /来 洲 玉 六 来 率 六 六 六 六 闪 闵 六 这 六 六 六 六 闪 闵 六 水 六 冰 闵 六 闵 闪 闵 六 六 六 六 水 六 六 六 六 冰 闵 冰冰 六 冰 六 六 六 六 冰冰 六 冰 浆 冰 六 冰冰 六 六 六 六 冰冰 六 冰冰 六 六 六 冰冰 六 闵 六 六 冰 六 冰冰 

中 下 println 《六 六 六 六 六 六 六 六 洲 闵 洲 六 玉米 闵 六 六 六 率 闵 率 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 率 闵 六 六 来 六 六 六 闵 六 六 六 六 六 六 六 六 六 水 六 六 六 六 六 六 六 冰冰 丰 ) 

5 println ("聚合 操作 ") 

本 志 println 《来 玉 玉米 六 六 六 六 六 六 六 六 六 率 率 水 六 六 六 六 六 六 六 率 率 闵 六 六 闵 六 六 六 六 来 闵 六 六 六 六 率 永 六 六 来 玉 六 六 六 六 六 六 六 六 六 六 六 六 水 闵 闵 闲 六" ) 

7 println(" 找 出 顶点 5 到 各 顶点 的 最 短 距离 : ") 

8. val sourceId: VertexId = 5L // 定 义 源 点 

9 val initialGraph = graph.mapVertices((id, ) => if (id == sourceId) 
0.0 else Double.PositiveInfinity) 

[车 val sssp = initialGraph.pregel (Double.PositiveInfinity) ( 

了 (id, dist, newDist) => math.min(dist, newDist), 

2 triplet => { // 计 算 权 重 

入 if (triplet.srcAttr + triplet.attr < triplet.dstAttr) { 
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1 
55 
6 
5 信 属 
站: 必 
SR 
20 . 
ZE 


PoomAArODNDp 


) 


人 


Iterator ( (triplet.dstId, triplet.srcAttr + triplet.attr)) 
} else { 

Iterator.empty 
3 


(avb) => math.min(a,b) // 最 短 距离 


println(sssp.vertices.collect.mkstring("\n")) 


在 IDEA 中 运行 代码 ， 婚 恋 社 交 网 络 多 维度 分 析 实 战 图 的 实用 操作 结果 如 下 : 
六 六 六 六 六 六 六 六 闵 六 六 六 六 六 六 六 六 六 六 率 闵 六 来 六 六 六 六 六 六 六 六 率 认 六 六 六 六 六 六 六 六 六 玉 六 六 闵 六 六 率 闵 六 六 六 六 六 六 六 


聚合 操作 


来 束 玉 束 素 玉 素 求 束 求 束 来 束 束 水 束 束 束 束 束 玉 求 束 束 束 束 来 求 末末 束 束 束 束 束 束 束 求 束 束 冰 水 求 求 束 束 事 束 求 束 束 束 束 玉 求 六 水 水 


找 出 顶点 5 到 各 项 点 的 最 短 距 离 : 


(4,4. 
(1,5. 
(ER 
(6,3. 
22 
(ea 


0) 
0) 
0) 
0) 
0) 
0) 


18.19 婚恋 社交 网 络 多 维度 分 析 业 例 代码 


Spark GraphX 图 操作 的 案例 代码 如 例 18-3 所 示 。 
【 例 18-3 】Graphx_ webGoogle.scala 代码 。 


ppp 
加 o ~ an 


DNDD 
WNPO 


DL 


Fooaomwawm 必 wm 请 
和 


上 FF 
心 w IN 


package com.dt.spark.graphx 


import 
import 
import 
import 


object 
def main (args: Array[String]) { 
Logger .getLogger ("org") .setLevel (Level .ERROR) 
Var masterUr1l = "local[8]" 
if (args.length > 0) { 


} 


val 
("Graphx webGoogle") 

val spark = SparkSession 

.builder() 

.config(sparkConf) 

-getOrCreate () 

val sc = spark.sparkContext 

// 数 据 存放 的 目录 

var dataPath = "data/web-Google/" 

val graphFromFile: Graph[PartitionID，PartitionID] = GraphLoader. 
edgeListFilel(sc, dataPath + "web-Google.txt", numEdgePartitions = 4) 
// 统 计 项 点 的 数量 


org.apache.1o0g4j.{Level, Logger} 
org.apache.spark.SparkConf 
org.apache.spark.graphx._ 
org.apache.spark.sql.SparkSession 


Graphx webGoogle { 


masterUrl = args (0) 


sparkConf = new SparkConf().setMaster (masterUrl) .setAppName 


“3e 
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有 5 


26 . 
和 人 


28 . 
将 9 


30: 
3 
S32 
六 3 
34. 


55 
x) 
Se 


38- 


上 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48 . 
49 . 
sO 
hh 
S52 
3s 
54. 
5 


56. 


S78 


58- 


3 
60. 
61. 


62- 
63= 
64. 
65s 
66. 
GT 
68. 


69. 


.824 


Println ("graphFromFile -vertices.-count: "+graphFromFile.vertices. 
count ()) 

// 统 计 边 的 数量 

println("graphFromFile.edges.count: " + graphFromFile.edges. 


count () ) 


val subGraph: Graph[PartitionID，PartitionID] =graphFromFile.subgraph 
(epred = e => e.srcId > e.dstId) 
for (elem <- subGraph.edges.take(10)) { 


Println("subGraph.edges: "+ elem) 
} 
println("subGraph.vertices.count (): "+ subGraph.vertices. 
count () ) 
println ("subGraph.edges.count () : "+ subGraph.edges.count () ) 
val subGraph2: Graph[PartitionID，PartitionID] = graphFromFile.subgraph 
(epred = e => e.srcId > e.dstId,vpred= (id, ) => id>1000000) 
println ("subGraph2 .vertices.count (): "+ subGraph2 .vertices . 
count () ) 
Println("subGraph2 .edges.count () : "+ subGraph2 .edges.count () ) 


val tmp: VertexRDD[PartitionID] =graphFromFile.inDegrees 
for (elem <- tmp.take (10)) { 

println ("graphFromFile.inDegrees: "+ elem) 
} 
val tmpl: VertexRDD[PartitionID] =graphFromFile.outDegrees 
for (elem <- tmpl.take(10)) { 

println ("graphFromFile.outDegrees: "+ elem) 
} 


val tmp2: VertexRDD[PartitionID] =graphFromFile.degrees 
for (elem <- tmp2.take(10)) { 
println ("graphFromFile.degrees: "+ elem) 


} 


def max (a: (VertexId, Int),b: (VertexId, Int)): (VertexId, Int)=if(a. 2 > 
b. 2) a else b 


println("graphFromFile.degrees.reduce (max): " + graphFromFile. 
degrees.reduce (max) ) 

println ("graphFromFile.inDegrees.reduce (max): "+ graphFromFile. 
inDegrees.reduce (max) ) 

println("graphFromFile.outDegrees.reduce (max): "+graphFromFile. 


outDegrees .reduce (max) ) 


val rawGraph: Graph[PartitionID，PartitionID] =graphFromFile. 
mapVertices((id, attr) =>0 ) 
for (elem <- rawGraph.vertices.take(10)) { 

println ("rawGraph.vertices: "+ elem) 


1 
val outDeg: VertexRDD[PartitionID] =rawGraph.outDegrees 
val tmpJoinVertices: Graph[PartitionID，PartitionID] =rawGraph.join 


Vertices [Int] (outDeg) (( ， ，optDeg) => optDeg) 
for (elem <- tmpJoinVertices.vertices.take(10)) { 
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着 从 三 println("tmpJoinVertices.vertices: "+ elem) 
Ts } 
ye 
YE 人 val tmpouterJoinVertices: Graph[PartitionID，PartitionID] =rawGraph. 
outerJoinVertices[Int, Int] (outDeg) (( ， , optDeg) =>optDeg.getOrElse(0)) 
74. for (elem <- tmpouterJoinVertices.vertices.take(10)) { 
5s println("tmpouterJoinVertices.vertices: "+ elem) 
VA } 
TTs 
了 8- 
9 for (elem <- graphFromFile.vertices.take(10)) { 
80 . Println("graphFromFile.vertices: ”+ elem) 
B= } 
82. 
B95 val tmpGraph: Graph[PartitionID，PartitionID] =graphFromFile. 
mapVertices((vid, attr) => attr.toInt*2) 
84. for (elem <- tmpGraph.vertices.take(10)) { 
85. println ("tmpGraph.vertices: "+ elem) 
86. } 
87. 
88. //Pregel API 例子 
89. val sourceld: VertexId = 0 
90. val g: Graph[Double，PartitionID] =graphFromFile.mapVertices((id, ) 
=>if(id == sourceId) 0.0 else Double.PositiveInfinity) 
gE val sssp: Graph[Double, PartitionID] = g.pregel (Double.Positive 
Infinity) ( 
92 . (id，dist，newDist) => math.min(dist，newDist)，// 顶 点 程序 
93 . triplet => { // 发 送 消息 
94. if (triplet.srcAttr + triplet.attr < triplet.dstAttr) { 
95. Iterator ( (triplet.dstId, triplet.srcAttr + triplet.attr)) 
96. } else { 
Te Iterator.empty 
98- 于 
995 
00. (a，b) => math.min(a，b) // 合 并 消息 
01. ) 
D2s println("sssp.vertices.collect: "+ sssp.vertices.collect.take(10). 
mkstring("\n")) 
03. val rank: VertexRDD[Double] = graphFromFile.pageRank (0.01). 
vertices 
04. for (elem <- rank.take(10)) { 
05s println ("rank: "+ elem) 
06. } 
07. 
08 . val graphFortriangleCount: Graph[PartitionID，PartitionID] = 
GraphLoader.edgeListFile (sc，dataPath + "web-Google.txt", true) 
109. val c: VertexRDD[PartitionID] = graphFromFile.triangleCount(). 
Vertices 
下 二 和 后 for (elem <- c.take(10)) { 
ls println("triangleCount: "+ elem) 
L122 下 
3 
下 while (true) {} 
ESS } 
116. } 
A 


“5s 
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婚恋 社交 网 络 多 维度 分 析 的 案例 代码 如 例 18-4 所 示 。 
【 例 18-4】SNSAnalysisGraphX.scala 代码 。 


3 package com.dt.spark.graphx 

党 

3. import org.apache.1o0g4j.{Level, Logger} 

4. import org.apache.spark.{SparkContext, SparkConf} 

5. import org.apache.spark.graphx. 

6. import org.apache.spark.rdd.RDD 

ss 

8. object SNSAnalysisGraphx { 

9. def main(args: Array[String]) { 

3 // 屏 蔽 日 志 

Tis Logger .getLogger ("org.apache.spark") .setLevel (Level .ERROR) 

2 Logger .getLogger ("org.eclipse.jetty.server") .setLevel (Level .OFF) 

3s 

Ta // 设 置 运 行 环境 

5 val conf = new SparkConf () .setAppName ("SNSAnalysisGraphX"). 
setMaster ("local[4]") 

16. Val sc = new SparkContext (conf) 

3 


18 . // 设 置顶 点 和 边 ， 注 意 顶 点 和 边 都 是 用 元 组 定义 的 Array 
19. // 顶 点 的 数据 类 型 是 VD: (String, Int) 


20. val vertexArray = Array( 
2 [人 
228 (2 ("Bob 27 

23e {3L, ("Charlie™: 65}). 
24. CA (novild 本 2 
2 {SLr ("EA SS5Y)s 

26. VOL (Ercan .SON 

2 ) 


D8 // 边 的 数据 类 型 是 ED: Int 
29. val edgeArray = Array( 


so Eage (2L. TIE 本 了) 

3 el le 2) 

2 Edge (3L, 2L, 4), 

392 Edge (3L, 6L, 3), 

34. Edge (4L, 1L, 1), 

35. Edge (5L, 2L, 2), 

36. Edge (5L, 3L, 8), 

37. Edge (5L, 6L, 3) 

38.. | 

339 

40. // 构 造 vertexRDD 和 edgeRDD 

ch val vertexRDD: RDD[ (Long, (String, Int))] = sc.parallelize 
(vertexArray) 


证 这 val edgeRDD: RDD[Edge[Int]] = sc.parallelize (edgeArray) 
43. 


44. // 构 造 图 Graph [VD, ED] 

CL val graph: Graph[ (String, Int), Int] = Graph (vertexRDD, edgeRDD) 
46. 

47. / /六 六 六 六 六 六 当当 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 玉米 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 

48 . / /六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 图 的 属性 玉米 闵 玉 六 六 六 六 六 六 六 六 六 六 玉米 闵 来 闵 六 六 六 六 

49 . /六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 
Ss Print]n ("六 六 六 六 六 六 六 六 玉 闵 闵 兴 六 六 闵 闵 六 率 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 率 六 六 六 六 率 六 六 六 六 六 六 率 六 水) 

od println ("属性 演示 ") 


*826°* 
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3 
A105 
yh 
多 人 
Ts 
74. 
5s 
76. 
Es 
78& 
了 9 
80 . 
81 
82. 
83. 
84. 
BS 
86. 
BR 
88 . 
S95 
oD 
Ee 
2 


93- 
94. 
9 
96. 
9g7: 
965 
D9 
100. 


Os 


Print]n ("六 六 炒米 闵 六 六 六 六 六 六 六 六 六 六 六 六 闪光 六 六 六 交 六 六 六 六 交 交 浆 六 六 六 六 闪 闵 六 六 六 交 六 六 六 六 交 闵 浆 六 六 交 六 六 六 六 交 六 交 六 六 ) 


风力 疾 二 
Println(" 找 出 图 中 年 龄 大 于 30 的 顶点 方法 一 : ") 


/** 
* 其 实 ， 这 里 还 可 以 加 入 性 别 等 信息 ， 例 如 ， 可 以 看 年 龄 大 于 30 岁 且 是 female 的 人 
* 
graph.vertices.filter { case (id, (name, age)) => age > 30 }.collect. 
foreach { 
case (id, (name, age)) => println(s"$name is $age") 
3 
太 方 法 三 
println(" 找 出 图 中 年 龄 大 于 30 的 顶点 方法 二 : ") 
graph.vertices.filter(v => v. 2. 2 > 30) .collect.foreach(v => 
printlin(s" Sv .22 1 4s Sv 2 24°)) 
println 


// 边 操作 : 找 出 图 中 属性 大 于 5 的 边 

Println(" 找 出 图 中 属性 大 于 5 的 边 :") 

graph.edges.filter(e => e.attr > 5) .collect.foreach (e =>println 
(s"${e.srcId} to S${e.dstId} att ${e.attr}")) 

println 


//triplets 操作 ，((srcId, srcAttr), (dstId, dstAttr), attr) 

println(" 列 出 所 有 的 tripltes: ") 

for (triplet <- graph.triplets.collect) { 
println(s"${triplet.srcAttr. 1} likes ${triplet.dstAttr. 1}") 

} 

println 


println(" 列 出 边 属性 >5 的 tripltes: ") 

for (triplet <- graph.triplets.filter(t => 七 .attr > 5).collect) { 
println(s"${triplet.srcAttr. 1} likes ${triplet.dstAttr. 1}") 

} 

println 


//Degrees 操作 
println (" 找 出 图 中 最 大 的 出 度 、 入 度 、 度 数 : ") 


def max (a: (VertexId, Int), b: (VertexId, Int)):(VertexId, Int)= { 
LEAar 2 SD 2 oss Re 
} 


println("max of outDegrees:" + graph.outDegrees.reduce (max) + " 

max of inDegrees:" + graph.inDegrees.reduce (max) + " max of 
Degrees:" + graph.degrees.reduce (max)) 

println 


// /六 六 六 六 六 六 六 六 六 宗 六 六 六 六 六 六 六 六 六 六 六 率 闵 六 来 闵 率 闵 六 六 六 这 六 六 率 闵 来 六 六 六 素 闵 六 六 六 六 六 六 六 六 六 率 六 六 来 闵 来 六 来 六 永 闵 六 闵 六 永 闵 六 六 六 来 
/ /六 六 六 六 六 来 闵 闲 六 闪闪 六 宁 闵 六 六 六 闪 六 兴 冰 六 转换 操作 闵 六 兴 闵 六 六 六 六 六 闵 六 六 六 六 六 六 六 六 冰 闵 六 六 六 冰 
// /六 六 六 六 六 来 闵 宁 六 闪 六 六 六 六 宁 闵 闪 闵 率 认 六 这 六 六 六 六 这 六 这 来 六 这 六 玉 床 闵 六 来 玉 六 六 兴 闵 六 六 这 六 六 六 六 六 闲 闵 来 闵 率 六 六 来 六 六 六 六 冰 闵 六 六 六 冰 
JPI 主 n 七 mi ("六 六 六 六 六 六 六 冰 闵 六 闪闪 六 闪闪 六 闪闪 六 六 闪闪 闪闪 六 闪闪 闪闪 六 闪闪 闪闪 六 六 闪闪 闪闪 六 六 六 闪 交 六 六 六 闪闪 交 闵 六 六 闪闪 亲 站 ) 


println ("转换 操作 ") 


Print]n ("* 米 米 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 来 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 六 六 六 六 六 六 六 六 六 六 ) 


println ("顶点 的 转换 操作 ， 顶 点 age + 10: ") 


“27's 
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355 





139. 
140. 


141. 
142. 
143. 
144. 


25 


146. 
147. 


"828» 


graph.mapVertices { case (id, (name, age)) => (id, (name, age +10))}. 
vertices.collect.foreach (v=>println(s"${v. 2. 1}is ${v. 2. 2}")) 

println 

println(" 边 的 转换 操作 ， 边 的 属性 *2: ") 

graph.mapEdges(e => e.attr * 2) .edges-collect.foreach(e => println 
(s"${e.srcId} to S${e.dstId} att S${e.attr}")) 

println 


/ /六 六 米 米 六 六 六 六 六 米 六 六 玉米 六 六 六 交 浆 六 六 六 六 交 六 六 六 六 六 六 六 六 六 六 家 六 六 六 交 闵 水 六 六 冰 六 六 六 六 六 冰冰 六 六 冰冰 六 六 六 六 六 六 六 六 六 六 六 六 六 六 冰冰 
/六 六 六 玉 六 六 六 六 率 闵 六 六 闵 六 六 六 六 来 闵 浆 闵 素 浆 结构 操作 床 率 玉 素 闵 闵 率 率 闵 来 闵 闵 率 玉 玉 六 六 六 六 玉米 米 冰冰 玉米 六 六 六 
/六 六 六 六 六 六 六 六 闪 六 六 六 来 来 六 闵 六 六 六 冰 闵 率 闵 六 妆 闵 六 闵 六 闵 闵 闵 六 来 弟 闵 六 这 六 康 六 六 六 六 玉 来 闵 闵 冰 闵 闪 六 六 六 六 六 六 六 冰冰 冰冰 六 六 闵 六 六 六 六 冰冰 
PIrin 七 ]n ("* 闵 率 闵 六 素 六 六 率 闵 闵 率 闵 素来 六 六 率 率 六 六 六 冰 率 六 六 六 六 六 素来 冰冰 率 率 闵 六 冰 率 率 闵 六 六 六 六 玉 闵 六 六 玉米 玉 六 六 来 米 玉 六 六 六 ) 
println ("结构 操作 ") 

print i ("" 玉 闵 闵 闵 六 率 闵 闵 率 六 六 六 六 六 六 六 六 冰 宗 闵 六 率 闵 六 六 六 六 六 六 玉 六 冰 率 六 六 六 六 六 六 六 六 来 六 六 六 六 六 六 六 六 六 六 六 六 闵 闵 闵 闲 闵 闵 ) 
println ("顶点 年 龄 >230 的 子 图 : ") 

val subGraph = graph.subgraph(vpred = (id, vd) => vd. 2 >= 30) 
println (" 子 图 所 有 项 点 : ") 

subGraph.vertices.collect.foreach(v => println(s"${v. 2. 1} is 
S02 2) 

println 
println(" 子 图 所 有 边 :") 

subGraph.edges .collect.foreach (e => println(s"${e.srcId} to 
${e.dstId} att S${e.attr}")) 

println 


/ /于 六 来 六 六 来 六 妆 六 六 闪闪 闪闪 六 六 六 闪闪 六 六 六 妆 六 闪 六 来 六 六 闪闪 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 水 六 交 六 六 六 六 六 六 六 六 六 六 六 冰 
/六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闪 连接 操作 六 来 康 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 玉米 六 六 六 

/ /六 案 襟 闪 来 来 来 闪闪 玉 来 闪 闪 六 玉 闪 六 六 六 六 闵 六 闪闪 六 六 闪 六 六 六 六 来 六 六 六 六 来 六 六 六 六 六 六 六 六 六 六 六 水 六 交 六 六 六 六 六 六 六 六 六 六 六 冰 
DIN 七] ("六 米 米 六 玉米 六 六 六 六 六 六 六 六 当 六 六 六 六 六 六 来 六 玉 闵 六 六 六 六 六 六 六 六 洲 六 六 六 六 六 六 六 六 六 冰 玉 六 六 六 六 六 六 六 冰 闵 米 中 ) 


println ("连接 操作 ") 


Prin 七 ]n (" 冰 玉 洲 玉 率 率 率 六 六 六 率 六 六 冰冰 闵 六 六 六 冰冰 六 六 冰冰 六 素 六 六 六 冰冰 素 六 六 冰冰 六 六 六 率 冰 六 六 六 六 六 冰冰 六 六 六 冰冰 六 束 1 ) 





val inDegrees: VertexRDD[Int] = graph.inDegrees 
case class User (name: String, age: Int, inDeg: Int, outDeg: Int) 


// 创 建 一 个 新 图 ， 顶 点 VD 的 数据 类 型 为 User， 并 从 Graph 做 类 型 转换 
val initialUserGraph: Graph[User, Int] = graph.mapVertices { case 
(id, (name, age)) => User (name, age, 0, 0) } 


//initialUserGraph 与 inDegrees、outDegrees (RDD) 进行 连接 ， 并 修改 
initialUserGraph 中 的 inDeg 值 和 outDeg 值 
val userGraph = initialUserGraph.outerJoinVertices (initialUserGraph 
inDegrees) { 
case (id, u, inDegOpt) => User(u.name, u.age, inDegOpt .getOr 
Else(0), u.outDeg) 
}.outerJoinVertices (initialUserGraph.outDegrees) { 
case (id, u, outDegOpt) => User(u.name, u.age, u.inDeg, outDegOpt. 
getOrElse(0) ) 
} 


println ("连接 图 的 属性 :") 

userGraph.vertices.collect.foreach(v => println(s"${v. 2.name} 
inDeg: ${v. 2.inDeg} outDeg: ${v. 2.0utDeg}")) 

println 


println ("出 度 和 入 度 相同 的 人 员 : ") 
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userGraph.vertices.filter { 

case (id, u) => u.inDeg == u.outDeg 
}.collect.foreach { 

case (id, property) => println (property.name) 


} 


println 


/ /六 六 六 米 六 六 六 六 六 米 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 六 六 浆 六 六 六 六 六 浆 六 六 水 闵 六 冰 玉 六 六 冰冰 六 六 六 六 六 六 六 六 六 六 六 六 六 六 冰冰 
闵 闵 素 闵 素 六 玉米 六 素来 来 闵 闵 素 米 素 素 玉 玉米 来 闵 玉 素 素 素 玉 

/ /# 洒 站立 半 可 站 聚合 操作 使 用 旧版 本 的 mapReduceTriplets 操作 # 洗 *# 下 本 水 于 本 

/玉米 玉米 闵 闵 率 六 六 六 六 六 来 六 六 六 六 六 闵 冰 闵 六 率 闵 六 六 六 率 六 来 六 六 六 六 率 六 六 浆 六 六 妆 六 六 六 六 六 六 六 六 六 闪 六 六 六 六 六 六 六 六 冰 闵 冰冰 六 闵 冰 闵 六 六 冰冰 
来 素 求 束 束 求 求 玉 束 求 求 来 玉 求 玉米 求 玉 束 求 束 束 来 束 来 来 束 米 


MU JPILn 七 ] mi ( "来 素 束 可 束 束 束 束 束 束 来 束 束 束 束 束 束 束 束 束 束 来 束 事 束 束 水 束 束 束 事 束 来 束 束 事 求 水 束 水 束 束 束 束 水 束 束 求 来 水 束 求 求 束 求 四) 

Println (" 聚 合 操作 ") 

7 println 《玉米 闵 闵 闵 来 闵 闵 冰 冰 素 六 六 六 这 六 六 六 六 闵 玉 素 六 六 率 率 率 率 六 六 六 六 来 六 六 六 六 六 六 六 六 六 率 闵 六 六 六 六 冰冰 六 冰冰 闵 闵 仆 ) 

// ”println(" 找 出 年 龄 最 大 的 追求 者 :") 

YX val oldestFollower: VertexRDD[ (String, Int)] = userGraph . 
mapReduceTriplets[ (String, Int)]( 

A // 将 源 项 点 的 属性 发 送 给 目标 顶点，map 过 程 

ya edge => Iterator((edge.dstId, (edge.srcAttr.name, edge. 

srcAttr.age))), 

wed // 得 到 年 龄 最 大 的 追求 者 ，reduce 过 程 

wk (a, b) => if (a. 2 >b. 2) a else b 

A 1 

yA 

ay 

a userGraph.vertices.leftJoin(oldestFollower) { (id, user, 
optOldestFollower) => 

pik optOldestFollower match { 

// case None => s"${user.name} does not have any followers." 

ue case Some ( (name，age)) => s"${name} is the oldest follower 

of ${user.name}." 

A } 

PR } .collect.foreach { case (id, str) => println(str)} 

yt println 

// 找 出 追求 者 的 平均 年 龄 

// ”println(" 找 出 追求 者 的 平均 年 龄 :") 

// val averageAge: VertexRDD[Double] = userGraph.mapReduce 
Triplets[ (Int, Double)]( 

pod // 将 源 顶 点 的 属性 (1，Age) 发 送 给 目标 项 点 ，map 过 程 

// edge => Iterator( (edge.dstId, (1, edge.srcAttr.age.toDouble))), 

Wi // 得 到 追求 者 的 数量 和 总 年 龄 

X (tar BI => Uta Db Tl la 2 Te 2) 

// ) .mapValues((id, p) => p. 2 / Pp. 1) 

A userGraph .vertices.leftJoin (averageAge) { (id,user, opt AverageAge) => 

ak optAverageAge match { 

J case None => s"${user.name} does not have any followers." 

Vo case Some(avgAge) => s"The average age of ${user.name}\'s 

followers is $avgAge." 

// } 

// } .collect.foreach { case (id, str) => println(str)} 

wt println 

wh 来 求 来 来 来 求 来 束 求 来 求 来 束 束 来 求 来 束 求 玉 束 来 束 求 求 求 来 来 束 束 求 来 求 来 求 求 来 求 来 求 束 求 求 来 来 束 求 求 来 来 来 求 求 求 来 来 来 来 求 来 求 来 来 求 来 来 来 玉 求 来 来 来 来 
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六 六 六 六 六 六 六 这 六 六 六 六 来 玉米 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 


pod 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闲 率 闵 六 六 六 六 六 六 六 闵 聚合 操作 使 用 Spark 2.0.2 版 本 
的 aggregateMessages 玉 案 来 六 六 这 六 六 六 永康 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 冰冰 六 冰 
wi 六 玉 六 六 这 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闪闪 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 


米 洲 闵 六 六 六 玉米 六 六 玉米 迷 闵 闵 玉 六 玉 玉 六 玉米 米 闵 率 六 六 玉米 六 
println ( 六 闵 玉 六 六 六 六 六 六 六 六 六 六 玉米 闵 六 六 玉米 闵 闵 闵 闵 闵 玉 六 六 六 六 来 闵 六 六 六 来 素 永 闵 闵 闵 玉 来 闵 六 六 六 六 玉米 六 来 闵 闵 闵 闵 六 六 中 ) 
println ("聚合 操作 ") 
println ( 加 来 率 来 闵 闵 闵 六 六 六 六 来 六 素来 玉米 闵 素 六 六 六 闵 闵 率 玉 冰冰 来 六 率 闵 闵 闵 闵 素来 六 闵 闵 六 六 六 六 六 六 六 六 六 六 六 冰 闵 六 六 冰 闵 六 六 中 9 
println (" 找 出 年 龄 最 大 的 追求 者 : ") 
val oldestFollower: VertexRDD[ (String, Int)] = graph.aggregate 
Messages [ (String, Int)]( 
// 将 源 顶 点 的 属性 发 送 给 目标 顶点 ，map 过 程 
triplet => { 
//Map 方法 
// 将 消息 发 送 到 包含 姓名 和 年 龄 的 目标 项 点 
triplet.sendToDst (triplet.srcAttr. 1, triplet.srcAttr. 2) 
}, 
// 得 到 年 龄 最 大 的 追求 者 ，reduce 过 程 
(ar b) => if (a.- 2 > b: 2) a else b 


userGraph.vertices.leftJoin(oldestFollower) { (id, user, optOldest 
Follower) => 
optOldestFollower match { 
case None => s"${user.name} does not have any followers." 
case Some ( (name，age)) => s"${name} is the oldest follower of 
${user.name}." 
} 
} .collect.foreach { case (id, str) => println(str) } 
println 


Print]n (™"* 闵 六 水 玉 闵 来 玉 水 六 闪 六 冰冰 六 冰冰 冰冰 率 冰 六 冰冰 浆 冰冰 冰冰 冰 冰冰 冰冰 冰冰 六 冰冰 六 永光 冰冰 六 六 六 水 永光 冰冰 六 永光 冰冰 1) 
println (" 找 出 年 龄 最 小 的 追求 者 : ") 
val youngestFollower: VertexRDD[ (String, Int)] = graph.aggregate 
Messages [ (String, Int)]( 
// 将 源 顶 点 的 属性 发 送 给 目标 顶点 ，map 过 程 
triplet => { 
//Map Function 
//Send message to destination vertex containing name and age 
triplet.sendToDst (triplet.srcAttr. 1, triplet.srcAttr. 2) 


}, 
// 得 到 年 龄 最 小 的 追求 者 ，reduce 过 程 
(a, b) => if (a. 2 > b. 2) b else a 


userGraph.vertices.leftJoin(youngestFollower) { (id, user, 
optYoungestFollower) => 
optYoungestFollower match { 
case None => s"${user.name} does not have any followers." 
case Some ( (name，age)) => s"${name} is the youngest follower 
of ${user.name}." 
于 
} .collect.foreach { case (id, str) => println(str) } 
println 
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// 找 出 追求 者 的 平均 年 龄 
Println (" 找 出 追求 者 的 平均 年 龄 : ") 
val averageAge: VertexRDD[Double] = graph-aggregateMessages[(Int， 
Double) ] ( 
// 将 源 顶 点 的 属性 (1，Rge) 发 送 给 目标 顶点 ，map 过 程 
triplet => { 
//Map 方法 
// 将 消息 发 送 到 包含 姓名 和 年 龄 的 目标 项 点 
triplet.sendToDst ((1, triplet.srcAttr. 2.toDouble) ) 


py 

// 得 到 追求 者 的 数量 和 总 年 龄 

Mae Bb) => (as Hb Le Ma 2 D2) 
) .mapValues((id, p) => p. 2 / p. 1) 


UseIGraph.vertices.leftJoin (averageAge) { (id, user,optAverageAge)=> 
optAverageAge match { 
case None => s"${user.name} does not have any followers." 
case Some (avgRge) => s"The average age of ${user.name}\'s 
followers is $avgAge." 
» 
} .collect.foreach { case (id, str) => println(str) } 
println 


/ /六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 这 六 六 六 六 六 冰冰 六 六 六 六 六 六 六 六 六 六 六 六 六 冰冰 六 六 冰冰 六 六 六 六 六 六 六 六 冰冰 六 交 冰 
玉米 米 冰 玉米 六 米 闵 六 冰冰 米 冰 六 冰冰 玉 冰 六 冰冰 六 末末 冰冰 
/ /六 来 玉 六 六 六 六 六 玉 六 六 六 素来 闵 来 闵 六 来 素来 率 闵 率 实用 操作 六 六 六 六 六 六 六 来 闵 浆 闵 六 六 六 冰冰 六 冰冰 冰冰 六 来 冰 闵 冰冰 浆 
/ /六 六 六 六 六 六 六 六 六 六 六 弟弟 闵 闵 闵 六 这 率 闵 六 闵 浆 六 六 六 六 冰球 素 六 六 六 这 浆 这 六 冰 六 闵 六 六 六 冰冰 六 六 六 六 六 冰冰 冰冰 冰冰 六 冰冰 六 闵 六 冰冰 冰冰 浆 冰 冰冰 冰冰 
米 米 米 米 六 六 六 玉米 米 米 冰 米 六 米 冰 玉米 冰冰 冰冰 六 玉米 冰 六 
println 位 来 来 来 来 束 束 玉 来 来 求 来 来 来 来 来 束 束 来 求 束 束 来 来 束 来 来 束 束 六 求 来 求 求 来 求 来 来 求 束 玉 求 来 求 束 求 求 来 来 来 事 求 束 束 炒 求 求 求 来 四 ) 
println ("聚合 操作 ") 
Print]n (™"* 闵 六 水 玉 闵 来 六 水 六 冰冰 冰冰 冰冰 六 冰冰 六 冰冰 六 冰 闵 冰冰 六 永光 冰冰 六 冰 闵 冰冰 六 闪 冰 六 永光 冰 闵 六 冰冰 六 冰冰 冰冰 来 闵 闵 冰冰 1 ) 
println (" 找 出 顶点 5 到 各 顶点 的 最 短 距离 : ") 
Val sourceId: VertexId = 5L 
// 定 义 源 点 
val initialGraph = graph.mapVertices((id, ) => if (id == sourceId) 
0.0 else Double.PositiveInfinity) 
val sssp = initialGraph.pregel (Double.PositiveInfinity) ( 
(id, dist, newDist) => math.min(dist, newDist), 
triplet => { 
// 计 算 权 重 
if (triplet.srcAttr + triplet.attr < triplet.dstAttr) { 
Iterator ( (triplet.dstId, triplet.srcAttr + triplet.attr)) 
} else { 
Iterator.empty 
} 
js 
(a，b) => math.min(a，b) // 最 短 距离 
’ 


println(sssp.vertices.collect.mkstring("\n")) 
while (true) {} 
sc.3top() 


} 


ls 
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18.20 本 章 总 结 


章 详细 阑 述 了 使 用 Spark GraphX 实现 婚恋 社交 网 络 多 维度 分 析 案 例 , 阐述 了 图 的 一 些 
基本 操作 : 属性 演示 、 转 换 、 结 构 、 连 接 、 聚 合 及 相关 的 实用 操作 。 
基于 Spark 的 RDD 抽象 ，Spark GraphX 可 以 无 颖 地 与 Spark SQL、MLLib 等 结合 使 用 。 
我 们 可 以 使 用 Spark SQL 进行 ETL 数据 清洗 ， 清 洗 之 后 交 给 Spark GraphX 进行 处 理 ，Spark 
GraphX 在 计算 时 又 可 以 和 MLLib 结合 使 用 ， 共 同 完成 深度 数据 挖掘 等 人 工 智能 化 的 操作 ， 
充分 发 挥 Spark 集成 计算 框架 的 优势 。 
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使 用 Broadcast 实现 Mapper 端 Shuffle 聚合 功能 的 原 
理 和 调 优 实战 
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原理 和 调 优 案例 





Spark 下 UVM 性 能 调 优 最 佳 实践 





Spark 五 大 子 框架 调 优 最 佳 实践 





Spark 2.2.0 新 一 代 钨 丝 计划 优化 引擎 





Spark Shuffle 调 优 原理 及 实践 


Spark 性 能 调 优 之 数据 倾斜 调 优 一 站 式 解决 方案 原理 与 














Spark 大 数据 性 能 调 优 实战 专业 之 路 


第 19 章 ”对 运行 在 YARN 上 的 Spark 
进行 性 能 调 优 


本 章 主要 讲解 运行 在 YARN 上 的 Spark 如 何 进行 性 能 调 优 。19.1 节 讲 解 运行 环境 Jar 包 
管理 及 数据 本 地 性 原理 调 优 实践 ; 19.2 节 讲 解 Spark on YARN 两 种 不 同 的 调度 模型 及 其 调 优 ; 
19.3 节 讲 解 YARN 队列 资源 不 足 引 起 的 Spark 应 用 程序 失败 的 原因 及 调 优 方案 ; 19.4 节 讲解 
Spark on YARN 模式 下 Executor 经常 被 杀 死 的 原因 及 最 佳 调 优 方案 ; 19.5 节 讲 解 YARN-Client 
模式 下 网 卡 流量 激 增 的 原因 及 调 优 方案 ; 19.6 节 讲 解 YARN-Cluster 模式 下 JVM 栈 内 存 溢出 
的 原因 及 调 优 方案 。 








19.1 运行 环境 Jar 包 管 理 及 数据 本 地 性 原理 调 优 实践 


本 节 首 先 讲解 运行 环境 Jar 包 管理 及 数据 本 地 性 原理 , 然后 讲解 运行 环境 Jar 包 管理 及 数 


19.1.1 运行 环境 Jar 包 管 理 及 数据 本 地 性 原理 


在 YARN 上 运行 Spark 需要 在 Spark-env.sh 或 环境 变量 中 配置 HADOOP_CONF_DIR 或 
YARN_CONF_DIR 目录 指向 Hadoop 的 配置 文件 。 

在 Spark-default.conf 中 配置 Spark.YARN.jars 指向 hdfs 上 的 Spark 需要 的 jar 包 。 如 果 不 
配置 该 参数 ,每 次 启动 Spark 程序 会 将 Driver 端的 SPARK_HOME 打包 上 传 分 发 到 各 个 节点 。 
配置 如 下 例 所 示 。 

1. spark.yarn.jars hdfs://clustername/spark/spark210/jars/* 


对 于 分 布 式 系统 来 说 ， 由 于 数据 可 能 也 是 分 布 式 的 ， 所 以 数据 处 理 往往 也 是 分 布 式 的 。 
要 想 保证 性 能 ， 尽 量 保证 数据 本 地 性 很 重要 。 

分 布 式 计算 系统 的 精粹 在 于 移动 计算 ， 而 非 移 动 数据 ， 但 是 ， 在 实际 的 计算 过 程 中 ， 总 
存在 移动 数据 的 情况 ， 除 非 是 在 集群 的 所 有 节点 上 都 保存 数据 的 副本 。 移 动 数据 将 数据 从 一 
个 节点 移动 到 另 一 个 节点 进行 计算 ， 不 但 消耗 了 网 络 HO， 也 消耗 了 磁盘 LO， 降低 了 整个 计 
算 的 效率 。 为 了 提高 数据 的 本 地 性 ， 除 了 优化 算法 (也 就 是 修改 Spark 内 存 ， 难 度 有 点 大 ) ， 
就 是 合理 设置 数据 的 副本 。 设 置 数 据 的 副本 ， 这 是 需要 通过 配置 参数 并 长 期 观察 运行 状态 ， 
才能 获取 的 一 个 经 验 值 。 

Spark 中 的 数据 本 地 性 有 以 下 5 种 。 

口 PROCESS LOCAL: 进程 本 地 化 。 代 码 和 数据 在 同一 个 进程 中 ， 也 就 是 在 同一 个 
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Executor 中 ; 计算 数据 的 Task 由 Executor 执行 ， 数 据 在 Executor 的 BlockManager 
中 ; 性 能 最 好 。 
口 NODE LOCAL: 节 点 本 地 化 :代码 和 数据 在 同一 个 节点 中 ,数据 作为 一 个 HDFS block 
块 ， 就 在 节点 上 ， 而 Task 在 节点 上 某 个 Executor 中 运行 ; 或 者 是 数据 和 Task 在 一 
个 节点 上 的 不 同 Executor 中 ; 数据 需要 在 进程 间 进 行 传输 。 也 就 是 说 ， 数 据 虽 然 在 
同一 Worker 中 , 但 不 是 同一 JVM 中 。 这 隐 含 着 进程 间 移 动 数据 的 开销 。 
口 NO_PREF: 数据 没有 局 部 性 首选 位 置 , 它 能 从 任何 位 置 同等 访问 。 对 于 Task 来 说 ， 
数据 从 哪里 获取 都 一 样 ， 无 好 坏 之 分 。 
口 RACK LOCAL: 机 架 本 地 化 。 数 据 在 不 同 的 服务 器 上 ， 但 在 相同 的 机 架 。 数 据 需 要 
通过 网 络 在 节点 之 间 进 行 传输 。 
口 ANY: 数据 在 不 同 的 服务 器 及 机 架 上 面 。 这 种 方式 性 能 最 差 。 
Spark 应 用 程序 本 身 包 含 代码 和 数据 两 部 分 ， 单 机 版 本 一 般 情况 下 很 少 考虑 数据 本 地 性 
的 问题 ,因为 数据 在 本 地 。 单 机 版 本 的 程序 ,数据 本 性 有 PROCESS LOCAL 和 NODE LOCAL 
之 分 ， 但 也 应 尽量 让 数据 处 于 PROCESS LOCAL 级别。 
通常 ， 读 取 数 据 要 尽量 使 数据 以 PROCESS_ LOCAL 或 NODE LOCAL 方式 读 取 。 其 中 ， 
PROCESS LOCAL 还 和 Cache 有 关 , 如 果 RDD 经 常用 , 应 将 该 RDD Cache 到 内 存 中 。 注意 ， 
由 于 Cache 是 Lazy 级 别 的 ， 所 以 必须 通过 一 个 Action 的 触发 ， 才 能 真正 地 将 该 RDD Cache 
到 内 存 中 。 


19.1.2 运行 环境 Jar 包 管 理 及 数据 本 地 性 调 优 实践 








启动 Spark 程序 时 ， 其 他 节点 会 自动 下 载 Jar 包 并 进行 缓存 ， 下 次 启动 时 如 果 包 没有 变 
化 ， 则 会 直接 读 取 本 地 缓存 的 包 。 缓 存 清理 间隔 在 YARN-site.xml 通过 以 下 参数 配置 。 


: 汀 yarn.nodemanager .localizer.Cache.cleanip.interval-ms 


启动 Spark-Shell， 指 定 master 为 YARN， 默 认为 client 模式 。 在 cluster 模式 下 可 以 使 用 
一 supervise， 如 果 Driver 异常 退出 ， 将 会 自行 重启 。 
/usr/install/Spark210/bin/sSpark-Shell 
--master YARN 
—-deploy-mode client 
—-Executor-memory 1g 
—-Executor-cores 1 
—-Driver-memory 19 
--queue test (默认 队列 是 default) 


初次 讲 到 参数 配置 ， 需 要 提醒 的 是 ， 在 代码 中 的 SparkConf 中 的 配置 参数 具有 最 高 优先 
级 ， 其 次 是 Spark-Submit 或 Spark-Shell 的 参数 ， 最 后 是 配置 文件 (conf/Spark-defaults.conf) 
中 的 参数 。 

本 地 性 级 别 以 最 近 的 级 别 开 始 ， 以 最 远 的 级 别 结束 。Spark 调度 任务 执行 是 要 让 任务 获 
得 最 近 的 本 地 性 级 别 的 数据 。 然 而 ， 有 时 它 不 得 不 放弃 最 近 本 地 性 级 别 ， 因 为 一 些 资源 上 的 
原因 ， 有 时 不 得 不 选择 更 远 的 。 在 数据 与 Executor 在 同一 机 器 但 数据 处 理 比较 忙 ， 且 存在 
一 些 空闲 的 Executor 远离 数据 的 情况 下 ，Spark 会 让 Executor 等 特定 的 时 间 ， 看 其 能 否 完 


ANAODNDP 


“32 


下 篇 ”性 能 调 优 








成 正在 处 理 的 工作 。 如 果 该 Executor 仍 不 可 用 , 一 个 新 的 任务 将 启用 在 更 远 的 可 用 节点 上 ， 
即 数据 被 传送 给 那个 节点 。 
可 以 给 Spark 中 的 Executor 配置 单 种 数据 本 地 性 级 别 可 以 等 待 的 空闲 时 长 ,如 下 例 所 示 : 


Val SparkConf = new SparkConf () 

SparkConf.set ("Spark.locality.wait", "3s") 
SparkConf.set ("Spark.locality.wait.node", "3s") 
SparkConf.set ("Spark.locality.wait.process", "3s") 
SparkConf.set ("Spark.locality.wait.rack", "3s") 


默认 情况 下 ， 这 些 等 待 时 长 都 是 3s。 下 面 讲解 调节 这 个 参数 的 方式 。 推 荐 大 家 在 测试 的 
时候， 先 用 Client 模式 ， 在 本 地 就 直接 可 以 看 到 比较 全 的 日 志 。 观 察 日 志 Spark 作业 的 运行 
志 ， 里 面 会 显示 如 下 日 志 。 

1. 17/02/11 21:59:45 INFO scheduler.TaskSetManager: Starting Task 0.0 in 

Stage 0.0 (TID 0, sandbox, PROCESS LOCAL, 1260 bytes) 

观察 大 部 分 Task 的 数据 本 地 化 级 别 : 如 果 大 多 都 是 PROCESS_LOCAL， 那 就 不 用 调节 
了 ; 如 果 发 现 很 多 的 级 别 都 是 NODE LOCAL、ANY， 那 么 最 好 调节 一 下 数据 本 地 化 的 等 待 
时 长 。 调 节 往 往 不 可 能 一 次 到 位 ， 应 该 反复 调节 ， 每 次 调节 完 以 后 ， 再 运行 ， 观 察 日 志 。 看 
Roy Task 的 本 地 化 级 别 有 没 有 提升 ， 也 看 看 整个 Spark 作业 的 运行 时 间 有 没有 缩短 ， 

日 别 本 末 倒 置 ， 如 果 本 地 化 级 别提 升 了 ， 但 是 因为 大 量 的 等 待 时 长 而 导致 Spark 作业 的 运行 
ea 那 也 是 不 好 的 调节 。 
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19.2 Spark on YARN 两 种 不 同 的 调度 模型 及 其 调 优 


本 节 讲 解 Spark on YARN 的 两 种 不 同类 型 模型 (YARN-Client 模式 、YARN-Cluster 模式 ) 
优 劣 分 析 ， 以 及 Spark on YARN 的 两 种 不 同类 型 调 优 实践 。 


19.2.1 Spark on YARN 的 两 种 不 同类 型 模型 优 劣 分 析 


按照 Spark 应 用 程序 中 的 Driver 分 布 方式 的 不 同 ，Spark on YARN 有 了 两 种 模式 
YARN-Client 模式 、YARN-Cluster 模式 。 

不 论 是 在 Spark-Shell 或 者 Spark-Submit 中 , Driver 都 运行 在 启动 Spark 应 用 的 机 器 上 。 
在 这 种 情形 下 ，YARN Application Master 仅 负责 从 YARN 中 请 求 资源 ， 这 就 是 YARN-Client 
模式 。 

另 一 种 方式 ，Driver 自动 运行 在 YARN Container (容器 ) 里 , 客户 端 可 以 从 集群 中 断 开 ， 
或 者 用 于 其 他 作业 。 这 叫 作 YARN-Cluster 模式 。 

理解 YARN-Client 和 YARN-Cluster 深层 次 的 区 别 之 前 先 清楚 一 个 概念 : Application 
Master。 在 YARN 中 ,每 个 Application 实例 都 有 一 个 Application Master 进程 , 它 是 Application 
启动 的 第 一 个 容器 。 它 负责 和 ResourceManager 打交道 并 请 求 资源 ， 获 取 资 源 后 告诉 
NodeManager 为 其 启动 Container。 从 深层 次 的 含义 讲 ，YARN-Cluster 和 YARN-Client 模式 
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的 区 别 其 实 就 是 Application Master 进程 的 区 别 。 

YARN-Client 模式 下 ，Application Master 仅 向 YARN 请 求 Executor，Client 会 和 请 求 的 
Container 通信 来 调度 它们 工作 。YARN-Client 模式 适合 调试 Spark 程序 ， 能 在 控制 台 输 出 一 
些 调试 信息 。 

YARN-Cluster 模式 下 ，Driver 运行 在 AM (Application Master) 中 ， 负 责 向 YARN 申请 
资源 , 并 监督 作业 的 运行 状况 。 当 用 户 提交 了 作业 后 , 就 可 以 关 掉 Client, 作业 会 继续 在 YARN 
上 和 运行， 因而 YARN-Cluster 模式 不 适合 运行 交互 类 型 的 作业 。 应 用 的 运行 结果 不 能 在 客户 
端 显示 《〈 可 以 在 History Server 中 查看 ) ， 所 以 最 好 将 结果 保存 在 HDFS， 而 非 Stdout 输出 ， 
客户 端的 终端 显示 的 是 作为 YARN 的 Job 的 简单 运行 状况 。 但 企业 生产 环境 下 会 用 
YARN-Cluster 模式 来 运行 Spark 应 用 程序 。 











19.2.2 Spark on YARN 的 两 种 不 同类 型 调 优 实践 


Spark 在 YARN 上 运行 包括 两 种 类 型 。 

口 YARN-Client 模式 : Spark 向 YARN 集群 提交 应 用 程序 (如 Spark-Shell 或 
Spark-Submit) ，Driver 就 运行 在 提交 应 用 的 节点 上 。 

口 YARN-Cluster 模式 : Spark 向 YARN 集群 提交 应 用 程序 , YARN 在 集群 内 分 配 一 个 
YARN Container (容器 ) 运行 Driver。 

在 YARN-Cluster 上 运行 作业 的 简单 例子 如 下 。 


1. S$spark home/bin/spark-submit -master yarn-cluster -num-Executors 4 
2. --Executor-cores 3 -class main.class myjar.jar 


另外 ， 我 们 能 在 YARN 上 运行 Spark-Shell: 


1. S$spark home/bin/spark-shell -master yarn-client -num-Executors 4 
--Executor-cores 3 


通过 YARN 资源 管理 器 WebUI 可 看 到 活动 的 YARN 作业 .有 时 在 YARN 上 运行 会 产 
生 一 些 复 杂 情 况 。 

一 个 常见 的 问题 是 YARN Resource Manager 对 Spark 的 申请 资源 的 限制 。 例如 ， 当 启动 
Spark 应 用 时 , 可 能 试图 去 分 配 比 YARN 集群 中 可 用 资源 更 多 的 资源 , 在 这 种 情形 下 , Spark 
将 提出 申请 ,而 不 是 直接 否定 请 求 ，YARN 将 等 资源 可 用 ， 即 使 它们 可 能 永远 不 会 有 足够 的 

另 一 个 通用 的 问题 是 单个 YARN Container 的 可 用 资源 是 固定 的 ,单个 Container 里 面 资 
源 有 限 ， 即 使 分 配 多 个 Container， 当 Spark 应 用 在 一 个 YARN Container 里 面 超过 了 可 用 内 
存 ， 就 会 出 现 OOM 问题 。 在 这 种 情形 下 ，YARN 将 终结 容器 并 抛 出 错误 ， 而 且 问 题 的 底层 
原因 很 难 追 踪 。 

Driver 可 在 YARN-Client 模式 分 配 1GB 内 存 及 一 个 核 。 如 果 应 用 程序 需要 ， 有 时 也 可 
增加 可 用 的 内 存 ， 特 别 是 对 于 长 时 间 运 行 的 Spark 工作 很 有 意义 ， 因 为 在 执行 过 程 中 可 能 积 
累 数 据 。 下 面 是 一 个 例子 : 


1. spark-shell --num-Executors 8 -Executor-cores 5 -Driver-memory 29 











“1s 


下 篇 ”性 能 调 优 








19.3 YARN 队列 资源 不 足 引 起 的 Spark 应 用 程序 失败 的 原 
因 及 调 优 方案 


本 节 讲 解 YARN 队列 资源 不 足 引起 的 Spark 应 用 程序 失败 的 原因 ， 以 及 YARN 队列 资 
源 不 足 引 起 的 Spark 应 用 程序 失败 的 3 个 解决 方案 。 


19.3.1 失败 的 原因 剖析 


ResourceManager 会 接收 你 提交 的 请 求 吗 ? YARN 一 般 把 自己 的 资源 分 成 不 同 的 类 型 ， 
我 们 提交 的 时 候 会 专门 提交 到 分 配给 Spark 的 那 一 组 资源 。 例 如 , 我 们 提交 信息 资源 : Memory 
1000G, Cores 800 个 ,此 时 你 要 提交 的 Spark 应 用 程序 可 能 需要 900GB 的 内 存 和 700 个 Core， 
一 定 会 没有 问题 吗 ? 不 一 定 ! 

另 一 种 情况 是 当前 的 作业 可 以 提交 运行 ， 已 经 消耗 了 900GB 的 内 存 和 700 个 Core， 然 
后 又 提交 了 一 个 消耗 500GB 的 内 存 和 300 个 Core 的 Spark 应 用 程序 ， 这 时 资源 不 够 ， 无 法 


19.3.2 ” 调 优 方案 


YARN 队列 资源 不 足 引起 的 Spark 应 用 程序 失败 有 以 下 解决 方案 。 

第 一 个 方法 :在 PEE 中 间 层 ， 通 过 线程 池 技 术 实现 顺利 地 提交 ， 可 让 线程 池 的 大 小 设 
定 为 1。 

第 二 个 办 法 : 如 果 提 交 的 Spark 应 用 程序 比较 耗 时 ， 如 均 超 过 10min， 而 其 他 的 Spark 
程序 都 在 2min 内 执行 完成 , 这 时 可 以 把 Spark 拥有 的 资源 进行 分 类 ( 耗 时 任务 和 快速 任务 ) 。 
此 时 可 以 使 用 两 个 线程 池 ， 每 个 线程 池 都 有 一 个 线程 。 

第 三 种 办 法 : 只 有 一 个 程序 运行 的 时 候 ， 可 以 把 Memory 和 Cores 都 调整 到 最 大 ， 这 样 
最 大 化 地 使 用 资源 来 最 快速 地 完成 程序 的 计算 ， 同 时 也 简化 了 集群 的 运 维和 故障 解决 。 


19.4 Spark on YARN 模式 下 Executor 经 常 被 杀 死 的 原因 及 
本 节 讲 解 Spark on YARN 模式 下 Executor 经 常 被 杀 死 的 原因 ， 以 及 调 优 方案 。 

19.4.1 原因 剖析 
如 果 出 现 以 下 异常 信息 : 


= 区 下 
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了 ExecutorLostFailure (Executor 3 exited caused by one of the running Tasks) 
Reason: Container killed by YARN for exceeding memory limits. 52.6 GB of 
50 GB physical memory used. Consider boosting Spark.YARN.Executor. 
memoryOverhead 


很 明显 , 内 存 被 用 完 。 提 示 建 议 考虑 增加 Spark.YARN.Executor.memoryOverhead 的 配置 。 
19.4.2” 调 优 方案 


Spark on YARN 模式 下 Executor 经 常 被 杀 死 的 调 优 方案 可 考虑 : 
口 移 除 RDD 缓存 操作 。 

口 增加 该 Job 的 Spark.storage.memoryFraction 系数 值 。 

Spark 配置 参数 如 下 。 


| Spark.storage.memoryFraction 


口 增加 该 Job 的 spark.yarn.Executormemoryoverhead 值 。 
Spark 配置 参数 如 下 。 


和 spark.yarn.Executor.memoryoverhead 
19.5 YARN-Client 模式 下 网 卡 流量 激增 的 原因 及 调 优 方案 


本 节 讲 解 YARN-Client 下 网 卡 流量 激增 的 原因 , 及 YARN-Client 下 网 卡 流量 激增 的 解决 
方案 : 在 生产 环境 中 使 用 YARN-Cluster 模式 去 提交 Spark 作业 。 


19.5.1 原因 剖析 


YARN 集群 分 成 两 种 节点 : 

口 ResourceManager 负责 资源 的 调度 。 

口 NodeManager 负责 资源 的 分 配 、 应 用 程序 执行 。 

通过 Spark-Submit 脚本 使 用 YARN-Client 方式 提交 ， 这 种 模式 其 实 会 在 本 地 启动 Driver 
程序 。 

我 们 将 写 的 Spark 程序 打 成 Jar 包 ， 使 用 Spark-Submit 提交 ， 将 Jar 包 中 的 main 类 通过 
JVM 命令 启动 。 JVM 中 的 进程 其 实 就 是 Driver 进程 , Driver 进程 启动 后 , 执行 我 们 写 的 main 
函数 。 

应 该 正确 认识 ApplicationMaster 这 个 YARN 中 的 核心 概念 ， 任 何 要 在 YARN 上 启动 的 
作业 类 型 (MR、Spark) ， 都 必须 有 一 个 ApplicationMaster。 每 种 计算 框架 (MapReduce、 
Spark ) ， 如 果 想 在 YARN 上 执行 自己 的 计算 应 用 ， 就 必须 自己 实现 和 提供 一 个 
ApplicationMaster， 这 就 相当 于 是 实现 了 YARN 提供 的 接口 ， 这 是 Spark 自己 开发 的 一 个 类 。 

Spark 在 YARN-Client 模式 下 ，Application 的 注册 (Executor 的 申请 ) 和 计算 Task 的 调 
度 ， 是 分 离开 的 。Standalone 模式 下 ， 这 两 个 操作 都 是 Driver 负责 的 。 

ApplicationMaster(ExecutorLauncheD) 负 责 Executor 的 申请 : Driver 负责 Job 和 Stage 的 划 
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分 ， 以 及 Task 的 创建 、 分 配 和 调度 。 

YARN-Client 模式 下 ， 会 产生 什么 样 的 问题 呢 ? 
于 我 们 的 Driver 是 启动 在 本 地 机 器 的 ， 而 且 Driver 是 全 权 负 责 所 有 任务 的 调度 的 ， 也 
就 是 说 , 要 与 YARN 集群 上 运行 的 多 个 Executor 进行 频繁 的 通信 (中间 有 Task 的 启动 消息 、 
Task 的 执行 统计 消息 、Task 的 运行 状态 、Shuffle 的 输出 结果 ) 。 

例如 ，Executor 有 100 个 ，Stage 有 10 个 ，Task 有 1000 个 。 每 个 Stage 运行 的 时 候 ， 都 
有 1000 个 Task 提交 到 Executor 上 面 去 运行 ， 平 均 每 个 Executor 有 10 个 Task。 接 下 来 问题 
来 了 ，Driver 要 频繁 地 与 Executor 上 运行 的 1000 个 Task 进行 通信 。 通 信 消 息 特别 多 ， 通 信 
的 频率 特别 高 。 运 行 完 一 个 Stage， 接 着 运行 下 一 个 Stage， 又 是 频繁 的 通信 。 

在 整个 Spark 运行 的 生命 周期 内 ， 都 会 频繁 地 进行 通信 和 调度 。 所 有 的 通信 和 调度 都 是 
在 本 地 机 器 上 发 出 去 和 接收 到 的 。 本 地 机 器 很 可 能 在 30min 内 (Spark 作业 运行 的 周期 内 ) 
进行 频繁 大 量 的 网 络 通信 。 此 时 本 地 机 器 的 网 络 通信 和 负载 非常 高 ， 会 导致 本 地 机 器 的 网 卡 流 
量 激增 。 

在 一 些 拥 有 庞大 计算 机 集群 的 公司 ， 对 每 台 机 器 的 使 用 情况 ， 都 是 有 监控 的 。 本 地 机 器 
的 网 卡 流 量 激增 ， 可 能 对 公司 网 络 运行 造成 影响 。 因 此 ， 运 维 人 员 不 会 允许 单个 机 器 出 现 耗 
费 大 量 网 络 带 宽 资 源 的 情况 。 


19.5.2” 调 优 方案 




















YARN-Client 下 网 卡 流量 激增 问题 的 解决 方法 很 简单 ， 首 先 须 清楚 YARN-Client 模式 是 
在 什么 情况 下 使 用 的 。 

YARN-Client 模式 通常 只 会 使 用 在 测试 环境 中 。 我 们 写 好 某 个 Spark 作业 打 成 Jar 包 , 在 
某 台 测试 机 器 上 使 用 YARN-Client 模式 去 提交 测试 。 我 们 不 会 长 时 间 连 续 提交 大 量 的 Spark 
作业 去 测试 ,YARN-Client 模式 提交 后 可 以 在 本 地 机 器 观察 到 详细 全 面 的 Log。 通 过 查看 Log， 
可 以 解决 线 上 报错 的 故障 (troubleshooting) 、 对 性 能 进行 观察 并 进行 性 能 调 优 。 

实际 上 线 后 ， 在 生产 环境 中 都 得 用 YARN-Cluster 模式 去 提交 Spark 作业 。 因 此 ， 
YARN-Cluster 模式 与 本 地 机 器 引起 的 网 卡 流量 激增 的 问题 没有 关系 。 即 使 在 YARN-Client 
测试 模式 下 网 卡 流量 激增 ， 也 应 该 是 YARN 运 维 团队 和 基础 运 维 团 队 去 考虑 YARN 集群 里 
每 台 机 器 是 虚拟 机 ， 还 是 物理 机 ?网卡 流量 激增 后 会 不 会 对 其 他 东西 产生 影响 ?如 果 网 络 流 
量 激增 ， 要 不 要 给 YARN 集群 增加 一 些 网 络 带 宽 等 。 

使 用 YARN-Cluster 模式 后 ， 就 不 是 本 地 机 器 运行 Driver 负责 Task 调度 了 。YARN 集群 
中 ， 有 某 个 节点 会 运行 Driver 进程 ， 负 责 Task 调度 。 


19.6 YARN-Cluster 模式 下 JVM 栈 内 存 溢出 的 原因 及 调 优 方案 


本 节 讲 解 YARN-Cluster 模式 下 JVM 栈 内 存 溢出 的 原因 及 调 优 方案 : 在 Spark-Submit 脚 
本 中 设置 PermGen。 
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19.6.1 原因 剖析 


有 些 Spark 作业 在 YARN-Client 模式 下 是 可 以 运行 的 ， 但 在 YARN-Cluster 模式 下 ， 会 
报 出 JVM 的 PermGen 〈 永 久 代 ) 的 内 存 溢出 COOM) 。 
出 现 以 上 问题 的 原因 是 :YARN-Client 模式 下 , Driver 运行 在 本 地 机 器 上 , Spark 使 用 JVM 
的 PermGen 的 配置 ， 是 本 地 的 默认 配置 128MB; 但 在 YARN-Cluster 模式 下 ，Driver 运行 在 
集群 的 某 个 节点 上 ，Spark 使 用 的 JVM 的 PermGen 是 没有 经 过 配置 的 ， 默认 是 82MB， 故 有 
会 出 现 PermGen Out Of Memory error Log。 





19.6.2 ” 调 优 方案 
YARN-Cluster 模式 下 JVM 栈 内 存 溢 出 问题 的 调 优 方案 如 下 。 
(1) 在 Spark-Submit 脚本 中 设置 PermGen。 


1. -conf Spark.Driver.extraJavaOptions="-XX:PermSize=128M -XX:MaxPermSize= 
256M" (最 小 128M， 最 大 256M) 


(2) 如 果 使 用 Spark SQL, SQL 中 使 用 大 量 的 or 语句 ,也 可 能 会 报 出 JVM stack overflow， 
JVM 栈 内 存 溢出 ， 此 时 可 以 把 复杂 的 SQL 简化 为 多 个 简单 的 SQL 进行 处 理 。 
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本 章 对 Spark 算 子 调 优 最 佳 实践 进行 讲解 。20.1 节 讲 解 使 用 mapPartitions 或 者 
mapPartitionWithIndex 取代 map 操作 ; 20.2 节 讲 解 使 用 foreachPartition 把 Spark 数据 持久 化 
到 外 部 存储 介质 ; 20.3 节 讲 解 使 用 coalesce 取代 rePartition 操作 ; 20.4 节 讲 解 使 月 
repartitionAndSortWithinPartitions 取代 repartition 和 sort 的 联合 操作 ; 20.5 节 讲 解 使 用 
treeReduce 取代 reduce 的 原理 和 源码 ; 20.6 节 讲 解 使 用 treeAggregate 取代 Aggregate 的 原理 
和 源码 ; 20.7 节 讲 解 reduceByKey 高 效 运行 的 原理 和 源码 解密 ; 20.8 节 讲 解 使 用 
AggregateBYKey 取代 groupByKey 的 原理 和 源码 ，20.9 节 讲 解 Join 不 产生 Shuffle 的 情况 及 
案例 实战 ，20.10 节 讲解 RDD 复 用 性 能 调 优 最 佳 实践 。 














20.1 使 用 mapPartitions 或 者 mapPartitionWithIndex 
取代 map 操作 


本 节 讲 解 mapPartitions 内 部 工作 机 制 和 源码 解析 、mapPartitionWithIndex 内 部 工作 机 制 
和 源码 解析 ;然后 讲解 使 用 mapPartitions 取代 map 案例 和 性 能 测试 。 


20.1.1 mapPartitions 内 部 工作 机 制 和 源码 解析 


mapPartitions 和 | map 函数 类 似 , 只 不 过 映射 函数 的 参数 由 RDD 中 的 每 个 元 素 变 成 了 RDD 
中 每 个 分 区 的 迭代 器 。 如 果 在 映射 的 过 程 中 需要 频繁 创建 额外 的 对 象 ， 使 用 mapPartitions 要 
比 使 用 map 高 效 。 

例如 ， 将 RDD 中 的 所 有 数据 通过 JDBC 连接 写 入 数据 库 ， 如 果 使 用 map 函数 ， 可 能 要 
为 每 个 元 素 都 创建 一 个 Connection， 这 样 开销 很 大 ;， 如果 使 用 mapPartitions， 那 么 只 需要 针 
对 每 个 分 区 建立 一 个 Connection。 

1. def mapPartitions[U: ClassTag] ( 


光 f: Iterator [T] => Iterator[U]， 
A preservesPartitioning: Boolean = false): RDD[IU] 


20.1.2 ”mapPartitionWithindex 内 部 工作 机 制 和 源码 解析 


mapPartitionsWithIndex 与 mapPartitions 基本 相同 , 只 是 处 理 函 数 的 参数 是 一 个 二 元 元 组 ， 
元 组 的 第 一 个 元 素 是 当前 处 理 的 分 区 的 index, 元 组 的 第 二 个 元 素 是 当前 处 理 的 分 区 元 素 组 成 
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的 Iterator。 
RDD .scala 中 的 mapPartitionsWithIndex 的 源码 如 下 。 


3 def mapPartitionsWithIndex[U: ClassTag] ( 

2 f: (Int, Iterator[T]) => Iterator[U], 

加 preservesPartitioning: Boolean = false): RDD[U] = withScope { 

对 5 val cleanedF = sc.clean(f) 

局 new MapPartitionsRDD( 

5 this, 

和 外 (context: TaskContext, index: Int, iter: Iterator [T]) => cleanedF (index, 
iter), 

8. preservesPartitioning) 

9. } 


RDD.scala 中 的 mapPartitions 的 源码 如 下 。 


二 def mapPartitions[U: ClassTag] ( 

2 f: Iterator [T] => Iterator[U]， 

3 preservesPartitioning: Boolean = false): RDD[U] = withScope { 

4 val cleanedF = sc-clean(f) 

3 new MapPartitionsRDD( 

6 Es 

了 (context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF (iter) ， 
8 preservesPartitioning) 

8 


从 源码 中 可 以 看 到 : 其 实 mapPartitions 已 经 获得 了 当前 处 理 的 分 区 的 index， 只 是 没有 
传 入 分 区 处 理 函 数 ， 而 mapPartitionsWithIndex 将 其 传 入 分 区 处 理 函数 。 


20.1.3 使 用 mapPartitions 取代 map 案例 和 性 能 测试 


RDD 的 mapPartitions 是 map 的 一 个 变种 ， 它 们 都 可 进行 分 区 的 并 行 处 理 。 

两 者 的 主要 区 别 是 调用 的 粒度 不 一 样 : map 的 输入 变换 函数 应 用 于 RDD 中 每 个 元 素 ， 
而 mapPartitions 的 输入 函数 应 用 于 每 个 分 区 。 

假设 一 个 RDD 有 10 个 元 素 ， 分 成 3 个 分 区 。 如 果 使 用 map 方法 ，map 中 的 输入 函数 会 
被 调用 10 次 ， 而 使 用 mapPartitions 方法 ， 其 输入 函数 只 会 被 调用 3 次 ， 每 个 分 区 调用 1 次 。 

编写 业务 测试 代码 mapPartitionsSuitscala ， 调 用 map 函数 中 的 自 定义 函数 
myfuncPerElement， 对 其 中 的 每 个 元 素 进行 处 理 ，10 个 元 素 调用 了 10 次 ; 调用 mapPartitions 
函数 中 的 自 定义 函数 myfuncPerPartition， 对 分 区 中 的 元 素 进行 处 理 ，3 个 分 区 调用 3 次 ， 
mapPartitionsSuit.scala 代码 如 下 。 

1. // 生 成 10 个 元 素 3 个 分 区 的 RDD a， 元 素 值 为 1~10 的 整数 (1 2 3 4 5 6 7 8 9 10) ， 


//sc 为 SparkContext 对 象 
2 val a = sc.parallelize(l to 10, 3) 
3. // 定 义 两 个 输入 变换 函数 ， 它 们 的 作用 均 是 将 RDD a 中 的 元 素 值 翻 倍 
4. //map 的 输入 函数 ， 其 参数 e 为 RDD 元 素 值 
5. def myfuncPerElement (e:Int) :Int = { 
6 println("e="+e) 
4 4 
8 } 
9 //mapPartitions 的 输入 函数 。iter 是 分 区 中 元 素 的 迭代 子 ， 返 回 类 型 也 应 是 迭代 子 
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10. def myfuncPerPartition ( iter : Iterator [Int] ) : Iterator [Int] = { 
11. println("run in Partition") 
12. var res = for (e <- iter ) yield e*2 


13. res 

14. } 

KE 

16. val b = a.map (myfuncPerElement) .collect 

17. val c = a.mapPartitions (myfuncPerPartition) .collect 


在 IDEA 中 运行 代码 ，mapPartitionsSuit 的 运行 结果 如 下 。 


1. Using Spark's default Log4j profile: org/apache/spark/Log4j-defaults. 
properties 
2. 17/06/06 17:01:17 INFO SparkContext: Running Spark version 2.1.0 


0 0m 


c aow 心 
@ 0m 


FF 
N 口 

Dononn 

Dy Te CU 1 he | 
FomwawmcwN 


卢 
CO 
0 


15. run in Partition 
16. run in Partition 
17. run in Partition 


从 输入 函数 (myfuncPerElement、myfuncPerPartition) 层面 看 ，map 是 推 模式 ， 数 据 被 
推 到 myfuncPerElement 中 ; mapPartitons 是 拉 模 式 ，myfuncPerPartition 通过 迭代 子 从 分 区 中 
拉 数 据 。 

这 两 个 方法 的 另 一 个 区 别 是 ， 在 大 数据 集 情况 下 的 资源 初始 化 开销 和 批 处 理 ， 如 果 在 
myfuncPerPartition 和 myfuncPerElement 中 都 要 初始 化 一 个 耗 时 的 资源 ， 然 后 使 用 ， 如 数据 库 
链接 。 在 上 面 的 例子 中 ，myfuncPerPartition 只 需 初 始 化 3 个 资源 (3 个 分 区 每 个 1 次) ， 而 


集中 元 素 个 数 远大 于 分 区 数 ) ，mapPartitons 的 开销 要 小 很 多 ， 也 便于 进行 批 处 理 操作 。 


20.2 ”使 用 foreachPartition 把 Spark 数据 持久 化 到 外 部 存储 介质 








本 节 讲 解 foreachPartition 内 部 工作 机 制 和 源码 解析 ; 使 用 foreachPartition 写 数据 到 
MySQL 中 案例 和 性 能 测试 。 








20.2.1 foreachPartition 内 部 工作 机 制 和 源码 解析 
下 面 先 看 一 下 RDD.scala 的 foreach 方法 。 在 foreach 方法 中 传 入 一 个 函数 ， 在 函数 中 提 
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交 rmmnJob， 对 于 iter 中 的 每 个 元 素 ， 使 用 iter.foreach 遍历 进行 计算 。 
RDD.scala 的 foreach 的 源码 如 下 。 


I def foreach(f: T => Unit): Unit = withScope { 

2 val cleanF = sc.clean(f) 

CE sc.runJob(this, (iter: Iterator[T]) => iter.foreach (cleanF)) 
| 


foreachPartition 函数 根据 传 入 的 function 进行 处 理 ， 和 foreach 函数 的 不 同 之 处 在 于 : 
foreachPartition 中 function 的 传 入 参数 是 一 个 Partition 对 应 数据 的 Iterator， 而 不 是 直接 使 上 
iterator 的 foreach， 然 后 对 分 区 的 数据 进行 计算 。 

RDD.scala 的 foreachPartition 的 源码 如 下 。 

















i def foreachPartition(f: Iterator[T] => Unit): Unit = withScope { 
3 val cleanF = sc.clean (f) 

区 | sc.runJob (this， (iter: Iterator [T]) => cleanF (iter) ) 

4 


20.2.2 ”使 用 foreachPartition 写 数据 到 MySQL 中 案例 和 性 能 测试 


如 果 使 用 foreach 算 子 ， 将 在 每 个 RDD 的 每 条 记录 中 都 进行 Connection 的 建立 和 关闭 ， 
这 会 导致 不 必要 的 高 负荷 ， 并 且 会 降低 整个 系统 的 吞吐 量 ， 所 以 一 个 更 好 的 方式 是 使 用 
RDD foreachPartition， 即 对 于 每 个 RDD 的 Partition， 建 立 唯一 的 连接 (每 个 Partition 的 RDD 
是 运行 在 同一 个 worker 上 的 ) ， 降 低 了 频繁 建立 连接 的 负载 ， 通 常 我 们 在 链接 数据 库 时 会 使 
用 连接 池 。 
foreachPartition 的 数据 库 链 接 代码 如 下 。 
RDD. foreachPartition { PartitionOfRecords => 
//ConnectionPool 连接 池 是 一 个 静态 的 ， 懒 加 载 初始 化 连接 池 


1 
2 
3. val Connection = ConnectionPool .getConnection() 

4. PartitionOfRecords.foreach(record => Connection.send(record)) 
| 

6 


ConnectionPool .returnConnection (Connection) // 返 回 连接 池 ， 用 于 以 后 链接 的 复 用 
} 


通过 持 有 一 个 静态 连接 池 对 象 ， 可 以 重复 利用 Connection， 进 一 步 优 化 了 链接 建立 的 开 
销 ， 从 而 降低 了 负载 。 另 外 值得 注意 的 是 ， 同 数据 库 的 连接 池 类 似 ， 这 里 说 的 连接 池 同 样 应 
该 是 Lazy 的 按 需 建立 链接 ， 并 且 及 时 地 收回 超时 的 链接 。 


20.3 ”使 用 coalesce 取代 rePartition 操作 


本 节 讲 解 coalesce 和 rePartition 工作 机 制 和 源码 剖析 ; 以 及 通过 测试 对 比 coalesce 和 
rePartition 的 性 能 。 





20.3.1 ” coalesce 和 repartition 工作 机 制 和 源码 剖析 


在 Spark 的 RDD 中 ，RDD 是 分 区 的 。 
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有 时 需要 重新 设置 RDD 的 分 区 数量 , 如 RDD 中 RDD 分 区 比较 多 , 但 是 每 个 RDD 的 数 
据 量 比较 小 ， 此 时 就 需要 设置 一 个 比较 合理 的 分 区 。 或 者 需要 把 RDD 的 分 区 数量 调 大 。 还 
有 就 是 通过 设置 一 个 RDD 的 分 区 来 达到 设置 生成 的 文件 的 数量 。 

有 两 种 方法 可 以 重 设 RDD 的 分 区 。 

口 coalesce 方法 。 

口 repartition 方法 。 

(1) RDD.scala 和 coalesce 方法 的 源码 如 下 。 


1. def coalesce (numPartitions: Int, shuffle: Boolean = false, 

2 partitionCoalescer: Option[PartitionCoalescer] = Option.empty) 
局 (implicit ord: Ordering[T] = null) 
4 
5 











: RDD[T] = withScope { 
require (numPartitions > 0, s"Number of partitions ($numPartitions) must be 
positive.") 
6 if (shuffle) { 
7 /** 从 随机 分 区 开始 ， 将 元 素 均 匀 分 布 在 输出 分 区 上 */ 
Bs val distributePartition = (index: Int, items: Iterator[T]) => { 
9 var position = (new Random(index)) .nextInt (numPartitions) 
1 
1 


0. items.map { t => 
人 // 注 意 ， 密 钥 的 哈 希 代码 本 身 就 是 密 钥 。HashPartitioner 将 根据 总 的 分 区 数 进行 
// 取 模 
2 position = position + 1 
3 (position, t+) 
14. ; 
入 by Lteratortl (rnt, TP)] 
16. 
ly // 包 括 一 个 shuffle 步 又 ， 以 便 我 们 的 上 游 任务 仍然 是 分 布 式 的 
人 new CoalescedqRDD ( 
19. new ShuffledRDD[Int, T, T] (mapPartitionsWithIndex (distributePartition), 
20E new HashPartitioner (numPartitions)), 
pl numPartitions, 
22 partitionCoalescer) .values 
2 } else { 
ZA new CoalescedRDD (this, numPartitions, partitionCoalescer) 
25s | 
26- 上 


coalesce 方法 的 作用 是 返回 指定 一 个 新 的 指定 分 区 的 RDD。 默 认 情况 下 ，shuffle 设置 为 
False。 如 果 是 生成 一 个 窒 依 赖 的 结果 ， 那 么 不 会 发 生 Shuffle。 例 如 ，1000 个 分 区 被 重新 设 
置 成 10 个 分 区 , 这样 不 会 发 生 Shuffle. 如 果 分 区 的 数量 发 生 激烈 的 变化 ,如 设置 namPartitions 
= 1， 这 可 能 会 造成 运行 计算 的 节点 比 你 想象 的 要 少 ， 为 了 避免 这 个 情况 ， 可 以 设置 
Shuffle=True， 那 么 ， 这 会 增加 Shuffle 操作 。 

(2) repartition 方法 的 源码 如 下 。 

1. def repartition (numPartitions: Int) (implicit ord: Ordering[T] = null): 

RDDI[T] = withScope { 

px coalesce (numPartitions, shuffle = true) 

Sa 

repartition 方法 就 是 coalesce 方法 Shuffle 为 True 的 情况 。 如 果 只 是 要 减少 父 RDD 的 分 
区 数量 ， 并 且 要 设置 的 分 区 数量 变化 并 不 是 很 激烈 ， 则 可 以 考虑 直接 使 用 coalesce 方法 来 避 
免 执 行 Shuffle 操作 ， 以 提高 效率 。 
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20.3.2 ”通过 测试 对 比 coalesce 和 repartition 的 性 能 


通常 对 一 个 RDD 执行 filter 算 子 过 滤 掉 RDD 中 较 多 数据 后 (如 30% 以 上 的 数据 ) ， 建 
议 使 用 coalesce 算 子 ,手动 减少 RDD 的 Partition 数量 ,将 RDD 中 的 数据 压缩 到 更 少 的 Partition 
中 去 。 因 为 filter 之 后 ，RDD 的 每 个 Partition 中 都 会 有 很 多 数据 被 过 滤 掉 ， 此 时 如 果 照 常 进 
行 后 续 的 计算 ， 其 实 每 个 Task 处 理 的 Partition 中 的 数据 量 并 不 是 很 多 ， 有 点 资源 浪费 ， 而 且 
此 时 处 理 的 Task 越 多 ， 速 度 反 而 越 慢 。 因 此 ， 用 coalesce 减少 Partition 数量 ， 将 RDD 中 的 
数据 压缩 到 更 少 的 Partition 之 后 ， 只 要 使 用 更 少 的 Task 即 可 处 理 完 所 有 的 Partition。 在 某 些 
场景 下 ， 对 性 能 的 提升 会 有 一 定 帮助 。 





20.4 使 用 repartitionAndSortWithinPartitions 取代 repartition 
和 sort 的 联合 操作 


本 节 讲 解 repartitionAndSortWithinPartitions 工作 机 制 和 源码 解析 ; repartitionAndSort 
WithinPartitions 性 能 测试 。 


20.4.1 repartitionAndSortWithinPartitions 的 工作 原理 和 源码 


JavaPairRDD.scala 的 repartitionAndSortWithinPartitions 的 源码 如 下 。 


可 def repartitionAndSortWithinpPartitions (partitioner: Partitioner) : JavaPairRDD 
LE VI 

val comp = com.google.common.collect.Ordering.natural() .asInstanceOf 
[Comparator [K] ] 

3 repartitionAndSortWithinPartitions (partitioner, comp) 

4. } 

Se 


6. def repartitionAndSortWithinPartitions (Partitioner: Partitioner, comp: 
Comparator [K] ) 

os : JavaPairRDD[K, V] = { 

8 implicit val ordering = comp // 人 允许 比较 器 做 隐 式 转换 进行 排序 

9 fromRDD( 

408 new OrderedRDDFunctions[K, V, (K, V)] (rdd) .repartitionAndSortWithin 

Partitions (partitioner)) 
:bi 


OrderedRDDFunctions.scala 的 repartitionAndSortWithinPartitions 的 源码 如 下 。 


es def repartitionandSortWithinPartitions (partitioner: Partitioner): RDDI[ (K, 
V)] = self.withScope { 

Ze new ShuffledRDDI[K, V, V] (self, partitioner) .setKeyOrdering (ordering) 

3. } 


从 源码 中 可 以 看 出 ,该 方法 依据 Partitioner 对 RDD 进行 分 区 ,并 且 在 每 个 结果 分 区 中 按 
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key 进行 排序 ， 通 过 对 比 sortByKey 发 现 ， 这 种 方式 比 先 分 区 ， 然 后 在 每 个 分 区 中 进行 排序 
效率 高 ， 这 是 因为 它 可 以 将 排序 融入 到 Shuffle 阶段 。 





20.4.2 。 repartitionAndSortWithinPartitions 性 能 测试 


repartitionAndSortWithinPartitions 是 Spark 官网 推荐 的 一 个 算 子 。 官 方 建议 ， 如 果 
repartition 重 分 区 之 后 , 还 要 进行 排序 , 建议 直接 使 用 repartitionAndSortWithinPartitions 算 子 。 
因为 该 算 子 可 以 一 边 进行 重 分 区 的 Shuffle 操作 ， 一 边 进行 排序 。Shuffle 与 sort 两 个 操作 同 
时 进行 ， 比 先 Shuffle 再 sort 性 能 要 高 。 











20.5 使 用 treeReduce 取代 reduce 的 原理 和 源码 


本 节 讲 解 使 用 treeReduce 取代 reduce 的 原理 和 源码 ; 以 及 使 用 treeReduce 进行 性 能 测试 。 
20.5.1 treeReduce 进行 reduce 的 工作 原理 和 源码 
treeReduce 类 似 于 treeAggregate， 利 用 在 Executor 端 进行 多 次 Aggregate 来 缩小 Driver 


的 计算 开销 。 
RDD.scala 的 treeReduce 的 源码 如 下 。 


二 def treeReduce (f: (T, T) => T, depth: Int = 2): T = withScope { 

忆 Fequire (depth >= 1, s"Depth must be greater than or equal to 1 but got 
$depth.") 

3 val cleanF = context.clean (f) 

4. val reducePartition: Iterator[T] => Option[T] = iter => { 

过 if (iter.hasNext) { 

6: Some (iter.reduceLeft (cleanF)) 

3 } else { 

8= None 

D3 } 

10. | 

1 val partiallyReduced = mapPartitions (it => Iterator (reducePartition 
(5 

i val op: (Option[T], Option[T]) => Option[T] = (c, x) => { 

于 3 if (c.isDefined && x.isDefined) { 

下 本 Some (cleanF (c.get, x.get)) 

2 } else if (c.isDefined) { 

ER 人 

二 } else if (x.isDefined) { 

EE bs 

9 } else { 

205 None 

2 . 

pa | 

六 3 partiallyReduced.treeAggregate (Option .empty[T]) (op, op, depth) 

24. .getOrElse (throw new UnsupportedOperationException ("empty collection")) 

Zs } 


treeReduce 函数 先 针对 每 个 分 区 利用 scala 的 reduceLeft 函数 进行 计算 ; 最 后 ， 再 将 局 部 
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合并 的 RDD 进行 treeAggregate 计算 ， 这 里 的 seqOp 和 combOp 一 样 ， 初 值 均 为 空 。 在 实际 
应 用 中 ， 可 以 用 treeReduce 代替 reduce， 主 要 用 于 单个 reduce 操作 开销 比较 大 的 情况 ， 而 
treeReduce 可 以 通过 调整 深度 来 控制 每 次 reduce 的 规模 。 


20.5.2 ”使 用 treeReduce 进行 性 能 测试 


reduceByKey 仅 在 key-value 键 值 对 的 RDD 上 可 用 ， 而 treeReduce 是 对 任何 RDD 的 泛 
化 操作 。reduceByKey 用 于 实现 treeReduce，reduceByKey 对 每 个 键 执行 汇聚 ，reduceByKey 
不 是 一 个 动作 Action， 结 果 返 回 Shuffled RDD。treeReduce 使 用 reduceByKey 来 执行 并 行 汇 
聚 ， 由 于 treeReduce 不 是 key-value 类 型 ， 因 此 我 们 将 树 的 深度 作为 Key， 将 treeReduce 转换 
成 一 个 key-value 类 型 的 RDD。 

许多 机 器 学 习 MLib 的 算法 使 用 treeAggregate， 在 高 斯 混合 模型 GaussianMixture 中 ， 使 
用 treeAgsgregate 算 子 奉 代 aggregate 算 子 性 能 提升 了 20% ， 而 在 Online Variational Bayes for 
LDA 使 用 treeAggregate 算 子 替代 reduce 算 子 来 聚合 预期 的 单词 计数 矩阵 (可 能 是 一 个 非常 
大 的 矩阵) ， 不 会 发 生 扩展 性 问题 。 MLlib 的 “梯度 下 降 ” 的 实现 使 用 的 是 treeAggregate。 

测试 中 使 用 treeAggregate 替代 reduce 在 实现 反 向 传播 算法 中 计算 梯度 下 降 。 在 测试 中 ， 
具有 100 个 特征 的 数据 集 、10M 实例 (instance〉 及 96 个 分 区 ， 在 一 个 集群 上 执行 ， 由 3 个 
Worker 工作 节点 和 1 个 应 用 Master 主 节点 (每 个 具有 16 个 CPU 和 52 GB 内 存 ) 组 成 ， 神 
经 网 络 只 执行 了 100 个 训练 次 数 ， 用 了 36min， 而 替代 前 运行 需 花 费 几 个 小 时 的 时 间 。 

以 下 Scala 代码 示例 生成 两 个 随机 RDD, 其 中 包含 100 万 个 值 , 并 使 用 map-reduce 模式 ， 
treeReduce 和 treeAggregate 计算 欧 氏 距离 如 下 。 








:Ee import org.apache.commons.lang.SystemUtils 

2. import org.apache.spark.mllib.random.RandomRDDs. 

3. import org.apache.spark.sql.SQLContext 

4. import org.apache.spark.{SparkConf, SparkContext} 

5 

6. import scala.math.sqgrt 

Ua 

8. object Test{ 

10. def main(args: Array[String]) { 

这 

2 ie var mapReduceTimeArr : Array[Double]= Array.ofDim(20) 

证 3 var treeReduceTimeArr : Array[Double]= Array.ofDim(20) 

14. Var treeAggregateTimeArr : Array[Double]= Array.ofDim(20) 

2 

6 //Spark 初始 化 

和 val config = new SparkConf () .setAppName ("TestStack") 

18. val sc: SparkContext = new SparkContext (config) 

Eh 属 val sql: SQLContext = new SQLContext (sc) 

20. 

2 // 生 成 一 个 随机 的 RDD， 包 含 100 万 个 来 自 标准 正 态 分 布 N(0，1) 的 独立 同 分 布 的 值 ， 
// 均 匀 分 布 在 5 个 分 区 中 

2 val inputl = normalRDD(sc, 1000000L, 5) 

2 

24. ”// 生 成 一 个 随机 的 RDD， 包 含 100 万 个 来 自 标准 正 态 分 布 N(0，1) 的 独立 同 分 布 的 值 ， 
// 均 匀 分 布 在 5 个 分 区 中 

和 25 val input2 = normalRDD(sc, 1000000L, 5) 
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26. 
人 2] 
”4 
EE 
30. 
31. 
2 
335 


34. 
35- 
3 
3 
28. 
95 
40 . 
41. 
42. 


43- 
44. 
45. 
46. 
47. 
48 . 
49. 
50 . 
Se 
52s 
5 
54. 
5 
56. 
Ss 
58- 
S95 


60 . 
G45 


62. 
G3 
64. 
G65 


66. 


下 了 
68. 
69- 
70 . 
Ls 
2 
Te 
74, 
Si 
76. 


"Ds 


val xy = inputl.zip(input2) .cache () 
//RDD 计算 


xy.-.count () 


for(i:Int <-0 until 20){ 
val tl = System.nanoTime () 
val euclideanDistanceMapRed = sqrt(xy.map { case (vl, v2) => (v1 - 
We reducedr 
val tl11 = System.nanoTime () 
Println("Map-Reduce -Euclidean Distance "+euclideanDistanceMapRed) 
mapReduceTimeArr (i)=(t11 - t1)/1000000.0 
println ("Map-Reduce - Elapsed time: "+ (t11 - t1)/1000000.0 + "ms") 
| 


for(ieInt <=0 ntil 20) 
val t2 = System.nanoTime () 
Val euclideanDistanceTreeRed = sqrt (xy.map { case (vl, v2) => (v1 
= (= vO .treeReduce( 二 二) 
val t22 = System.nanoTime () 
println("TreeReduce - Euclidean Distance "+euclideanDistanceTreeRed) 
treeReduceTimeArr(i)=(t22 - t2) / 1000000.0 
println("TreeReduce - Elapsed time: "+ (t22 - t2) / 1000000.0 + "ms") 
} 


for(i:Int <-0 until 20) { 
val t3 = System.nanoTime () 
Val euclideanDistanceTreeAggr = sqrt(xy.treeAggregate(0.0)( 
seaop = 
(= 3 
}, 
combOp = (cl, c2) => { 
te BE 4 ) 
})) 
val t33 = System.nanoTime () 
println("TreeAggregate - Euclidean Distance " + euclideanDistance 
TreeAggr) 
treeAggregateTimeArr(i) = (t33 - t3) / 1000000.0 
println("TreeAggregate - Elapsed time: " + (t33 - t3) / 1000000.0 
+ "ms") 


} 


val mapReduceAvgTime = mapReduceTimeArr.sum / mapReduceTimeArr.length 
val treeReduceAvgTime = treeReduceTimeArr.sum / treeReduceTimeArr. 
length 

val treeAggregateAvgTime = treeAggregateTimeArr.sum / treeAggregate 
TimeArr.length 


val mapReduceMinTime = mapReduceTimeArr .min 
val treeReduceMinTime = treeReduceTimeArr.min 
val treeAggregateMinTime = treeAggregateTimeArr.min 


val mapReduceMaxTime = mapReduceTimeArr.max 
val treeReduceMaxTime = treeReduceTimeArr.max 
val treeAggregateMaxTime = treeAggregateTimeArr.max 


println ("Map-Reduce - Avg:" + mapReduceAvgTimet+ "ms "+ "Max:" 
+mapReduceMaxTime+ "ms "+ "Min:" tmapReduceMinTime+ "ms ") 
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78。 


人 
80. 


println("TreeReduce - Avg:" + treeReduceAvgTime + "ms "+ "Max:" 
+treeReduceMaxTime+ "ms "+ "Min:" +treeReduceMinTime+ "ms ") 
println("TreeAggregate - Avg:" + treeAggregateAvgTime + "ms "+ "Max:" 
+treeAggregateMaxTime+ "ms "+ "Min:" +treeAggregateMinTime+ "ms ") 


20.6 使 用 treeAggregate 取代 Aggregate 的 原理 和 源码 


本 节 讲 解 treeAggregate 进行 Aggregate 的 工作 原理 和 源码 ; 以 及 使 用 treeAggregate 进行 


性 能 测试 。 


20.6.1 


treeAggregate 进行 Aggregate 的 工作 原理 和 源码 


treeAggregate 分 层 进 行 Aggregate， 由 于 Aggregate 的 时 候 ， 其 分 区 的 计算 结果 是 传输 到 
Driver 端 再 进行 合并 的 ， 如 果 分 区 比较 多 ， 计 算 结果 返回 的 数据 量 比较 大 ， 那 么 Driver 端 需 
要 缓存 大 量 的 中 间 结 果 ， 这 样 就 会 加 大 Driver 端的 计算 压力 ， 因 此 treeAggregate 把 分 区 计算 
结果 的 合并 仍旧 放 在 Executor 端 进行 , 将 结果 在 Executor 端 不 断 合 并 缩小 返回 Driver 的 数据 
量 ， 最 后 在 Driver 端 进行 合并 。 

RDD.scala 的 treeAggregate 的 源码 如 下 。 


FFPieoamwm 必 wmwN 


PpPpPppppPpp 
oawm 必 wwN 


DD 
PO 


/** 


* 聚 集 Aggregates 多 级 树 状 模式 的 RDD 的 元 素 
四 


* @param depth 建议 树 的 深度 〈 默 认 值 : 2) 
* @see [[org.apache.spark.rdd.RDD#aggregate]] 
*/ 


def treeAggregate[U: ClassTag] (zeroValue: U) ( 


seqop: (U, T) => U, 
combOp: (U, U) => U, 
depth: Int = 2): U = withScope { 
require (depth >= 1, s"Depth must be greater than or equal to 1 but got 
$depth.") 
if (partitions.length == 0) { 
Utils.clone (zeroValue, context.env.closureSerializer.newInstance()) 
} else { 
Val cleanSeqOp = context.clean (seqOp) 
Val cleanCombOp = context.clean (combOp) 
// 针 对 初始 分 区 的 聚合 函数 
Val aggregatePartition = 
(it: Iterator [T]) => 让 .aggregate (zeroValue) (cleanSeqOp, cleanCombOp) 
// 针 对 初始 的 各 分 区 先进 行 部 分 聚合 
Var partiallyAggregated = mapPartitions (it => Iterator (aggregate 
Partition(it) ) ) 
var numPartitions = partiallyAggregated.partitions.length 
// 根 据 传 入 的 depth 计算 出 需要 人 迭代 计算 的 程度 
val scale = math.max (math.ceil (math.pow (numPartitions, 1.0 / 
depth)) .toInt, 2) 
// 如 果 创 建 一 个 额外 的 级 别 并 不 能 帮助 减少 wall-clock 时 间 ， 我 们 将 停止 树 的 聚集 


As 
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2 // 当 不 保存 wall-clock 时 间 时 ， 将 不 触发 树 聚 集 TreeAggregation 
28E while (numPartitions > scale + math.ceil (numPartitions.toDouble / 
Scale)) { 


29. // 计 算 迁 代 的 程度 


1 全 numPartitions /= scale 

31 val curNumPartitions = numPartitions 

32. // 减 少 分 区 个 数 ， 合 并 部 分 分 区 的 结果 

S33 partiallyAggregated = partiallyAggregated.mapPartitionsWithIindex { 

34. (i, iter) => iter.map((i % curNumPartitions，_)) 

全 光 } .reduceByKey (new HashPartitioner (curNumPartitions), cleanCombOp). 
values 

3 } 

x // 执 行 最 后 一 次 reduce， 返 回 最 终结 果 

3 partiallyAggregated.reduce (cleanCombOp) 

29 } 

40. 


20.6.2 ”使 用 treeAggregate 进行 性 能 测试 


在 Spark (和 原始 MapReduce) 中 的 reduce 算 子 或 aggregate 算 子 中 ， 所 有 分 区 都 必须 将 
其 汇聚 的 值 发 送 到 Driver 节点 ， 并 且 Driver 节点 对 分 区 数量 花费 线性 时 间 (由 于 分 区 计算 结 
果 和 网 络 带宽 限制 ) 。 当 有 很 多 分 区 ， 每 个 分 区 的 数据 很 大 时 ， 它 成 为 一 个 瓶颈 。 

Spark 1.1 引入 了 基于 多 级 聚合 树 的 聚合 模式 。 在 此 设置 中 ， 将 数据 组 合 在 Executors 上 ， 
然后 将 其 发 送 到 Driver 节点 ， 大 大 降低 了 Driver 节点 必须 处 理 的 负载 。 测 试 表明 ， 这 些 功能 
将 聚合 时 间 减 少 一 个 数量 级 ， 特 别 是 在 具有 大 量 分 区 的 数据 集 上 。 

在 treeReduce 和 treeAggregate 中 , 分 区 以 对 数 的 轮 数 相互 通信 。 在 treeAggregate 的 情况 
下 ， 假 设 在 其 叶子 具有 所 有 分 区 的 n-ary tree 树 ， 树 根 节点 将 包含 最 终 的 汇聚 值 。 这 样 就 没 
有 一 台 瓶 颈 节 点 ， 如 图 20-1 所 示 。 


aggregate tree aggregate 





图 20-1 treeReduce 和 treeAggregate 对 比 图 
下 面 是 teeReduce 和 treeAggregate 代码 示例 ， 需 在 具有 大 量 分 区 的 群集 上 运行 。 
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public void treeReduce () { 


2 JavaRDD<Integer> rdd = sc.parallelize (Arrays.asList(-5, -4, -3, -2, -1, 
Lr Zr 3 A 10)3 

3 Function2<Integer, Integer, Integer> add = new Function2<Integer, 
Integer, Integer>() { 

4 @Override 

public Integer calll(Integer a, Integer b) { 

6 returnat+b; 

Ts | 

8< }; 

9 for (int depth = 1; depth <= 10; depth++) { 

10 int sum = rdd.treeReduce(add, depth); 

> assertEquals(-5, sum); 

12: } 

Es } 

14. 

于 本 

16. public void treeAggregate() { 

:区 司 JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(-5, -4, -3, -2, 
SO 

8 Function2<Integer, Integer, Integer> add = new Function2<Integer, 
Integer， Integer>() { 

9 @Override 

之 public Integer calll(Integer a, Integer b) { 

2 returna+b; 

二 人 

2 he 

4 阿 for (int depth = 1; depth <= 10; depth++) { 

这 5 int sum = rdd.treeAggregate(0, add, add, depth); 

Ea assertEquals(-5, sum); 

2 } 

28. } 


20.7 reduceByKey 高 效 运行 的 原理 和 源码 解密 


Spark 的 RDD 的 reduceByKey 是 使 用 一 个 相关 的 函数 来 合并 每 个 key 的 value 值 的 一 个 
算 子 。 本 质 上 讲 ，reduceByKey 函数 〈 算 子 ) 只 作用 于 包含 key-value 的 RDD 上 ， 它 是 
transformation 类 型 的 算 子 ， 这 也 就 意味 着 它 是 懒 加 载 的 (也 就 是 说 ， 不 调用 Action 的 方法 ， 
是 不 会 去 计算 的 ) 。 使 用 时 ， 我 们 需要 传递 一 个 相关 的 函数 作为 参数 ， 这 个 函数 将 会 被 应 用 
到 源 RDD 上 ， 并 且 创 建 一 个 新 的 RDD 作为 返回 结果 ， 这 个 算 子 作为 data Shuffling 在 分 区 
时 被 广泛 使 用 。 

Spark 的 reduceByKey 方法 有 3 种 重 载 形式 。 


> 人 def reduceByKey (Partitioner: Partitioner, func: JFunction2[V, V, V]): 
JavaPairRDD[K, V] 

2. def reduceByKey(func: JFunction2[V, V, V], numPartitions: Int): 
JavaPairRDD[K, V] 

3. def reduceByKey (func: JFunction2[V, V, V]): JavaPairRDDI[K, V] 


前 两 种 形式 除了 人 允许 用 户 传 入 聚合 函数 外 ， 还 允许 用 户 指定 Partitioner 或 者 指定 
reduceByKey 后 生成 的 RDD 的 Partition 个 数 。 
RDD.scala 的 源码 如 下 。 





“ 
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a def reduceByKey (func: JFunction2[V, V, V]): JavaPairRDDI[K, V] = { 
区 5 fromRDD (reduceByKey (defaultPartitioner (RDD), func)) 
3. } 




















其 中 , 当 用 户 没有 指定 Partitioner 以 及 Partition 的 个 数 时 ,Spark 会 调用 defaultPartitioner 
(RDD) 函 数 去 获取 一 个 默认 的 Partitioner。defaultPartitioner 的 源码 如 下 。 
Partitioner.scala 的 源码 如 下 。 











A def defaultPartitioner (rdd: RDD[ ], others: RDD[ ]*): Partitioner = { 

二 val rdds = (Seq(rdd) ++ others) 

3 Val hasPartitioner = rdds.filter( .partitioner.exists( .numPartitions > 
0)) 

4 if (hasPartitioner.nonEmpty) { 

5 hasPartitioner.maxBY(_ .partitions.length) .partitioner.get 

Ba } else { 

时 if (rdd.context.conf.contains ("spark.default.parallelism")) { 

8 new HashPartitioner (rdd.context.defaultParallelism) 

9 } else { 

L002 new HashPartitioner(rdds.map( .partitions.length) .max) 

Fh } 

22< } 

3- 下 

了 


defaultPartitioner 方法 允许 传 入 两 个 RDD， 调 用 该 方法 时 最 少 需要 传 入 一 个 RDD。 方 法 
首先 会 将 传 入 的 两 个 RDD 合并 成 一 个 数组 ， 遍 历 这 个 数组 ， 从 有 Partitioner 的 RDD 中 挑选 
出 Partition 个 数 最 多 的 RDD， 将 其 Partitioner 返回 。 如 果 传 入 的 RDD 都 没有 Partitioner， 那 
么 就 会 返回 一 个 HashPartitioner， 其 中 ， 如 果 Spark 配置 了 Spark.default.parallelism 参数 ， 则 
Partition 的 个 数 为 该 参数 的 值 。 否则 , 新 生成 的 RDD 中 Partition 的 个 数 取 与 其 依赖 的 父 RDD 
中 Partition 个 数 的 最 大 值 。 

再 进一步 ， 我 们 来 看 HashPartitioner (HashPartitioner 是 Partitioner 的 一 个 内 部 类 ) 的 划 
分 规则 是 怎么 样 的 。 

Partitioner.scala 的 源码 如 下 。 


有 class HashPartitioner (partitions: Int) extends Partitioner { 

2 require(partitions >= 0, s"Number of partitions ($partitions) cannot be 
negative.") 

3 

4 def numPartitions: Int = partitions 

与 

Gs def getPartition(key: Any): Int = key match { 

了 case null => 0 

8 case _ => Utils.nonNegativeMod (key.hashCode，numPartitions) 

9 } 

10 

了 override def equals (other: Any) : Boolean = other match { 

2 case h: HashPartitioner => 

3 h.numPartitions == numPartitions 

14. case => 

TS false 

Lo } 

7 

18. override def hashCode: Int = numPartitions 

9 
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HashPartitioner 是 一 个 基于 Java 的 Object.HashCode 实现 , 基于 Hash 的 Partitioner。 由 于 
Java arrays 的 Hash code 是 基于 arrays 的 标识 , 而 不 是 它 的 内 容 , 所 以 如 果 使 用 HashPartitioner 
对 RDD[Array[ ]] 或 者 RDD[(Array[_ ], )] 进 行 Partition, 可 能 会 得 到 不 正确 的 结果 。 也 就 是 说 ， 
如 果 RDD 中 保存 的 数据 类 型 是 arays， 这 时 默认 的 HashPartitioner 是 不 可 用 的 ， 用 户 在 调 
reduceByKey 时 需要 自行 实现 一 个 Partitioner， 否 则 方法 会 抛 出 异常 。 

从 源码 中 可 以 看 出 ，HashPartitioner 的 划分 规则 根据 的 是 Utils.nonNegativeMod 
(key.HashCode, numPartitions) 方 法 ， 而 这 个 方法 也 很 简单 。 




















Utils.scala 的 源码 如 下 。 

:大 def nonNegativeMod(x: Int, mod: Int): Int = { 
2 val rawMod = x $ mod 

二 六 rawMod + (if (rawMod < 0) mod else 0) 


nonNegativeMod 就 是 直接 用 对 象 的 HashCode 对 numPartition 取 模 。 

回 到 reduceByKey 方法 ， 所 有 的 reduceByKey 重 载 最 终 都 会 调用 以 下 代码 。 

T /*w 

2 *# 使 用 关联 和 交换 汇聚 函数 合并 每 个 Key 键 的 Value 值 。 在 每 个 Mapper 端 将 结果 发 送 到 

*Reducer 端 之 前 ， 进 行 本 地 合并 ， 类 似 于 MapReduce 的 本 地 聚合 combiner 

3 

2 reduceByKey (partitioner: Partitioner, func: (V, V) => V): RDD[ (K, V)] 
= self.withScope { 

-人 combineByKeyWithClassTag[V] ((v: V) => v, func, func, partitioner) 

6 

接 下 来 看 一 下 combineByKeyWithClassTag 函数 的 实现 。 

口 如 果 执 行 这 个 操作 ,RDD 的 key 是 一 个 数组 类 型 时 ,同时 设置 Mapper 端 执行 combine 
操作 ， 提 示 错 误 。 

口 如 果 RDD 的 key 是 一 个 数组 类 型 ， 同 时 分 区 算 子 是 默认 的 哈 希 算 子 时 ， 提 示 错 误 。 

PairRDDFunctions.scala 的 源码 如 下 。 


def combineByKeyWithClassTag[C] ( 


人 

加 if (keyClass.isArray) { 

7 if (mapSideCombine) { 

加 throw new SparkException ("Cannot use map-side combining with array 
keys.") 

6. i 

ye if (partitioner.isInstanceOf[HashPartitioner]) { 

8 throw new SparkException ("HashPartitioner cannot partition array 

keys.") 

oe 

10. 上 

有 人 


根据 传 入 的 前 3 个 参数 ， 生 成 Aggregator， 设 置 mapSideCombine 时 ，Aggregator 必须 
存在 。 
PairRDDFunctions.scala 的 源码 如 下 。 


1. val aggregator = new Aggregator [K，V，C] ( 
2 本 self.context.clean (createCombiner), 


55s 
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3 self.context -clean (mergeValue), 
全 二 self.context.clean (mergeCombiners)) 
Se 


如 果 执行 当前 操作 传 入 的 Partitioner 与 执行 这 个 操作 对 应 的 RDD 是 相同 的 算 子 时 , 这 时 
不 对 当前 的 操作 生成 新 的 RDD， 也 就 是 这 个 操作 不 再 执行 Shuffle 操作 ， 直 接 使 用 当前 操作 
的 RDD 的 Iterator。 

PairRDDFunctions.scala 的 源码 如 下 。 











:I if (self.partitioner == Some(partitioner)) { 

这 self.mapPartitions(iter => { 

光 val context = TaskContext.get() 

4. new InterruptibleIterator (context, aggregator.combineValuesByKey 
(iter, context)) 

上 }, preservesPartitioning = true) 

| 


如 果 当 前 操作 传 入 的 Partitioner 与 执行 这 个 操作 对 应 的 RDD 不 相同 时 , 执行 这 个 操作 的 
Partitioner 是 一 个 新 生成 的 ， 或 者 说 与 当前 要 执行 这 个 操作 的 RDD 的 Partitioner 不 是 相同 的 
实例 ， 表 示 这 个 操作 需要 执行 Shuffle 操作 ， 生 成 一 个 ShuffledRDD 实例 。 

PairRDDFunctions.scala 的 源码 如 下 。 





受 } else { 

| new ShuffledRDD[K, V, C] (self, partitioner) 
“号 .SetSerializer(serializer) 

:局 .SetAggregator (aggregator) 
6 

汪 

8 


卢 


.SetMapSideCombine (mapSideCombine) 
} 
} 

ShuffledRDD 的 实例 生成 : 先 看 ShuffledRDD 实例 的 生成 部 分 。 这 里 传 入 的 prev 是 生成 
ShuffleRDD 的 上 层 的 RDD, 在 实例 生成 时 设置 对 上 层 的 RDD 的 依赖 为 Nil, 表示 对 上 层 RDD 
的 依赖 是 Nil。 

:党 class ShuffledRDD[K: ClassTag, V: ClassTag, C: ClassTag] ( 

人 @transient var prev: RDD[ <: Product2[K, V]], 

< 人 part: Partitioner) 

4. extends RDD[ (K, C)] (prev.context, Nil) { 

接 下 来 ShuffledRDD 处 理 上 层 RDD 的 依赖 部 分 ， 在 ShuffledRDD 中 会 重 写 
getDependencies 函数 。 

ShuffledRDD.scala 的 源码 如 下 。 


2 override def getDependencies: Seq[Dependency[ ]] = { 

2 

3. // 这 里 ， 生 成 对 ShuffledRDD 的 依赖 为 ShuffleDependency 实例 。 这 个 依赖 的 RDD 

4. // 就 是 生成 这 个 shuffledRDD 的 上 层 的 RDD 的 实例 

区 县 List (new ShuffleDependency (prev, part, serializer, keyOrdering, aggregator, 
mapSideCombine)) 

6. } 
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在 getDependencies 方法 中 构建 生成 ShuffleDependency 实例 ， 每 生成 一 个 
ShuffleDependency 的 实例 时 ， 会 对 每 个 Shuffle 的 依赖 生成 一 个 唯一 的 ShuffleIld， 用 于 对 此 
Stage 中 每 个 Task 的 结果 集 的 跟踪 。 

Dependency.scala 的 源码 如 下 。 


Fi class ShuffleDependency[K: ClassTag, V: ClassTag, C: ClassTag] ( 

放生 

所 val shuffleId: Int = _rdd.context.newShuffleId() 

4 val shuffleHandle: ShuffleHandle = _rdd.context.env.shuffleManager. 
registerShuffle( 

By shuffleld, rdd.partitions.length, this) 

| 


向 ShuffleManager 注册 这 个 Shuffle 的 依赖 。Task 的 结果 集 向 Driver 通知 时 ， 首 先 需 要 
这 个 Shuffle 是 一 个 注册 的 Shuffle。reduceByKey 适合 使 用 在 大 数据 集 上 。 因 为 Spark 知道 它 
可 以 在 每 个 分 区 移动 数据 前 将 输出 数据 与 一 个 共用 的 key 结合 。 


20.8 ”使 用 AggregateByKey 取代 groupByKey 的 原理 和 源码 


本 节 讲解 使 用 AggregateByKey 取代 groupByKey 的 原理 和 源码 ; 以 及 使 用 AggregateByKey 
取代 groupByKey 性 能 测试 。 


20.8.1 使 用 AggregateByKey 取代 groupByKey 的 工作 原理 


AggregateByKey 函数 对 PairRDD 中 相同 Key 的 值 进 行 聚合 操作 ， 在 聚合 过 程 中 同样 使 
用 了 一 个 中 立 的 初始 值 ,和 Aggregate 函数 类 似 , AggregateByKey 返回 值 的 类 型 不 需要 和 RDD 
中 value 的 类 型 一 致 。 因 为 AggregateByKey 是 对 相同 Key 中 的 值 进行 聚合 操作 ， 所 以 
AggregateByKey 函数 最 终 返回 的 类 型 还 是 Pair RDD， 对 应 的 结果 是 Key 和 聚合 好 的 值 ， 而 
Aggregate 函数 是 直接 返回 非 RDD 的 结果 ， 这 点 需要 注意 。 在 实现 过 程 中 定义 了 3 个 
AggregateByKey 函数 原型 ， 但 最 终 调用 的 AggregateByKey 函数 都 一 致 。 
def AggregateByKey[U: ClassTag] (zeroValue: U, Partitioner: Partitioner) 
(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)] 
def AggregateBYKey[U: ClassTag] (zeroValue: U, numPpartitions: Int) 
(seqOop: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)] 
def AggregateByKey[U: ClassTag] (zeroValue: U) 
(seqop: (U, V) => U, combOp: (U, U) => U) : RDDI (K, UV)] 
第 一 个 AggregateByKey 函数 我 们 可 以 自 定义 Partitioner。 除 了 这 个 参数 外 ， 其 函数 声明 
和 Aggregate 很 类 似 ; 其 他 的 AggregateByKey 函数 实现 最 终 都 是 调用 AggregateByKey 函数 。 
第 二 个 AggregateByKey 函数 可 以 设置 分 区 的 个 数 umPartitions)， 最 终 用 的 是 
HashPartitioner。 
最 后 一 个 AggregateByKey 实现 先 判断 当前 RDD 是 否定 义 了 分 区 函数 ， 如 果 定义 了 ， 则 
用 当前 RDD 的 分 区 ; 如 果 当 前 RDD 并 未 定义 分 区 ， 则 使 用 HashPartitioner。 





Go 必 wN 
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20.8.2 ”源码 剖析 








如 使 











AggregateByKey 取代 groupByKey， 先 看 一 下 AggregateByKey 源码 的 主要 代码 。 


PairRDDFunctions.scala 的 源码 如 下 。 


1. def aggregateByYKey[U: ClassTag] (zeroValue: U, partitioner: Partitioner) 
(seqop: (U, V) => U, 


cawm 必 wm 


combOp: (U, U) => U): RDD[(K，U)] = self.withScope { 
val cleanedSeqOp = self.context.clean (seqOp) 
//seqOop 传 入 createCombiner, mergeValue。combOp 传 入 mergeCombiners 
combineByKeyWithClassTag[U] ((v: V) => cleanedSeqOp (createZero(), v), 
cleanedSeqOp, combOp, partitioner) 


其 中 调用 的 combineByKeyWithClassTag 方法 源码 中 的 mapSideCombine: Boolean 默认 为 
true 值 ， 在 mapSide 端 进行 聚合 。 
PairRDDFunctions.scala 的 源码 如 下 。 


出 
区 
< 
4. 
5 
6 
7 


def combineByKeyWithClassTag[C] ( 


createCombiner: V => C, 

mergeValue: (C, V) => C， 

mergeCombiners: (C, C) => C， 

partitioner: Partitioner, 

mapSideCombine: Boolean = true, 

serializer: Serializer = null) (implicit ct: ClassTag[C]): RDDI[(K, 
C)] = self.withScope { 


在 aggregateByKey 方法 中 调用 combineByKeyWithClassTag 时 : 
口 createCombiner: cleanedSeqOp(createZero(), V) 是 createCombiner, 也 就 是 传 入 的 seqOp 
函数 ,只 不 过 其 中 一 个 值 是 传 入 的 zeroValue。 
口 mergeValue: seqOp 函数 同样 是 mergeValue, createCombiner 和 mergeValue 函数 都 是 
AgegregateByKey 函数 的 关键 。 
口 mergeCombiners: combOp 函数 。 
因此 ， 当 createCombiner 和 mergeValue 函数 的 操作 相同 时 ，AggregateByKey 更 合适 。 
当 调 用 groupByKey 时 ， 所 有 的 键 值 对 (key-value pair) 都 会 被 移动 ， 在 网 络 上 传输 这 
些 数 据 非常 没 必 要 ， 因 此 避免 使 用 GroupByKey。 
为 了 确定 将 数据 对 移 到 哪个 主机 ，Spark 会 对 数据 对 的 Key 调用 一 个 分 区 算法 。 当 移动 
的 数据 量 大 于 单 台 执行 机 器 内 存 总 量 时 ，Spark 会 把 数据 保存 到 磁盘 上 。 不 过 ， 在 保存 时 每 
次 会 处 理 一 个 Key 的 数据 ， 所 以 当 单个 Key 的 键 值 对 超过 内 存 容 量 时 , 会 存在 内 存 溢 出 的 异 
常 。 应 避免 将 数据 保存 到 磁盘 上 ， 这 会 严重 影响 性 能 。 
如 果 需 要 按 Key 分 组 聚合 (如 sum 或 average) ， 推 荐 使 用 reduceByKey 或 者 
AgegregateByKey， 以 获得 更 好 的 性 能 。 
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20.8.3 使 用 AggregateByKey 取代 groupByKey 性 能 测试 


计算 计数 时 有 两 种 不 同 的 方式 ， 如 分 别 通过 reduceByKey 算 子 和 groupByKey 算 子 进行 
计算 。 

a val words = Array("one", "two", "two", "three", "three", "three") 

2. val wordPairsRDD = sc.parallelize (words) .map (word => (word, 1)) 

全 

4 val wordCountsWithReduce = wordPairsRDD .reduceByKey( + ) .collect() 

5. val wordCountsWithGroup = wordPairsRDD .groupByKey() .map(t =>(t. 1， 
2 3 collect() 


reduceByKey 将 在 Shuffle 前 在 本 地 将 相同 Key 值 的 记录 先进 行 汇聚 (例如 : (a，1) 出 
现 2 次 , 在 本 地 先 汇聚 (a, 2) ), 如 图 20-2 所 示 , groupByKey 本 地 不 进行 汇聚 , 通过 Shuffle 
进行 汇聚 ， 如 图 20-3 所 示 。 


ReduceByKey 











20-2 ”reduceByKey 算 子 


GroupByKey 











图 20-3 groupByKey 算 子 


AggregateByKey 算 子 类 似 于 reduceByKey 算 子 ， 在 算 子 里 面 调用 combineByKey 方法 。 


= 
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使 用 AggregateByKey 取代 groupByKey 对 大 量 数据 的 计算 速度 的 提升 是 显而易见 的 。 
20.9 Join 不 产生 Shuffle 的 情况 及 案例 实战 


本 节 讲 解 Join 在 什么 情况 下 不 产生 Shuffle 及 其 运行 原理 ，Join 不 产生 Shuffle 的 情况 案 
例 实战 。 


20.9.1 Join 在 什么 情况 下 不 产生 Shuffle 及 其 运行 原理 


在 大 数据 处 理 场景 中 ， 多 表 Join 是 常见 的 一 类 运算 。 为 了 便于 求解 ， 通 常会 将 多 表 Join 
问题 转 为 多 个 两 表 连 接 问题 。 两 表 Join 的 实现 算法 非常 多 ， 一 般 我 们 会 根据 两 表 的 数据 特点 
选取 不 同 的 Join 算法 , 其 中 , 最 常用 的 两 个 算法 是 map-side join 和 reduce-side join。map-side 
join 也 就 是 Join 不 产生 Shuffle。 

Map-side Join 使 用 场景 是 一 个 大 表 和 一 个 小 表 的 连接 操作 ， 其 中 ，“ 小 表 ” 是 指 文件 足 
够 小 , 可 以 加 载 到 内 存 中 。 该 算法 可 以 将 Join 算 子 执行 在 Mapper 端 ,无 需 经 历 Shuffle 和 reduce 
等 阶段 ， 因 此 效率 非常 高 。 

在 Hadoop MapReduce 中 ，map-side Join 是 借助 DistributedCache 实 现 的 .DistributedCache 
可 以 帮 有 我们 将 小 文件 分 发 到 各 个 节点 的 Task 工作 目录 下 , 这 样 , 我 们 只 需 在 程序 中 将 文件 加 
载 到 内 存 中 〈 例 如 ， 保 存 到 Map 数据 结构 中 ) ， 然 后 借助 Mapper 的 迭代 机 制 ， 人 遍历 另 一 个 
大 表 中 的 每 一 条 记录 ， 并 查找 是 否 在 小 表 中 ， 如 果 在 ， 则 输出 ， 否 则 跳 过 。 

在 Apache Spark 中 ,同样 存在 类 似 于 DistributedCache 的 功能 , 称 为 “广播 变量 "Broadcast 
variable) 。 其 实现 原理 与 DistributedCache 非常 类 似 ， 但 提供 了 更 多 的 数据 /文件 广播 算法 ， 
包括 高 效 的 P2P 算法 ， 该 算法 在 节点 数目 非常 多 的 场景 下 ， 效 率 远 远 好 于 DistributedCache 
这 种 基于 HDFS 共享 存储 的 方式 , 具体 比较 可 参考 “Performance and Scalability of Broadcast in 
Spark”。 使 用 MapReduce DistributedCache 时 ， 用 户 需 要 显 式 地 使 用 File API 编写 程序 从 本 
地 读 取 小 表 数 据 ， 而 Spark 则 不 用 ， 它 借助 Scala 语言 强大 的 函数 闭 包 特性 ， 可 以 隐藏 数据 / 
文件 广播 过 程 ， 使 用 户 编写 程序 更 加 简单 。 





20.9.2 ”Join 不 产生 Shuffle 的 情况 案例 实战 


假设 两 个 文件 ， 一 小 一 大 ， 且 格式 类 似 为 


1. Key,value,value 
2. Key,value,value 


则 利用 Spark 实现 map-side 的 算法 如 下 。 


Var tablel = sc.textFile(args(1)) 
Var table2 = sc.textFile(args (2)) 


Var pairs = tablel.map { x => 


下 
4 
局 
4. //tablel 是 一 个 小 表 ， 因 此 广播 这 个 小 表 作为 map<String， String> 
6 Var pos = x.indexOf (',') 
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va (x.substring (0, pos), x.substring(pos + 1)) 
8. }.collectAsMap 
9. var broadCastMap = sc.broadcast (pairs) // 保 存 表 tablel 作为 map， 然 后 进行 广播 


11. //table2 和 tablel 在 map 端 进行 Join 

12. Var result = table2.map { x => 

13. var pos = x.indexOf (',') 

14. (x.substring(0, pos), x.substring(pos + 1)) 

15. }.mapPartitions({ iter => 

16. var m = broadCastMap.value 

Kr A i 

:让 (key, value) <- iter 

19. if(m.contains (key)) 

20. } Yield (key, (value, m.get (key) .getOrElse(""))) 
}) 


23. result.saveAsTextFile (args (3) ) // 保 存 结果 到 本 地 文件 或 者 HDFS 系统 


20.10 RDD 复 用 性 能 调 优 最 佳 实践 
本 节 讲 解 什么 时 候 需 要 复 用 RDD， 以 及 如 何 复 用 RDD 算 子 。 
20.10.1 什么 时 候 需 要 复 用 RDD 


通常 ， 开 发 一 个 Spark 作业 时 ， 首 先是 基于 某 个 数据 源 (如 Hive 表 或 HDFS 文件 ) 创建 
-个 初始 的 RDD; 接着 对 这 个 RDD 执行 某 个 算 子 操作 ， 然 后 得 到 下 一 个 RDD; 以 此 类 推 ， 
循环 往复 ， 直 到 计算 出 最 终 我 们 需要 的 结果 。 在 这 个 过 程 中 ， 多 个 RDD 会 通过 不 同 的 算 子 
操作 (如 map、reduce 等 ) 串 起 来 ， 这 个 “RDD 串 ” 就 是 RDD lineage， 也 就 是 “RDD 的 血 
缘 关 系 链 ”。 

在 开发 过 程 中 要 注意 : 对 于 同一 份 数据 ， 只 应 该 创建 一 个 RDD， 不 能 创建 多 个 RDD 来 
代表 同一 份 数据 。 

一 些 Spark 初学 者 在 刚 开 始 开发 Spark 作业 时 ， 或 者 是 有 经 验 的 工程 师 在 开发 RDD 
lineage 极其 见长 的 Spark 作业 时 , 可 能 会 忘 了 自己 之 前 对 于 某 一 份 数据 已 经 创建 过 一 个 RDD 
了 ， 从 而 导致 对 于 同一 份 数据 ， 创 建 了 多 个 RDD。 这 就 意味 着 ， 我 们 的 Spark 作业 会 进行 多 
次 重复 计算 ， 来 创建 多 个 代表 相同 数据 的 RDD， 进 而 增加 了 作业 的 性 能 开销 。 

除了 要 避免 在 开发 过 程 中 对 一 份 完全 相同 的 数据 创建 多 个 RDD 外 ， 在 对 不 同 的 数据 执 
行 算 子 操作 时 还 要 尽 可 能 地 复 用 一 个 RDD。 例 如 ， 有 一 个 RDD 的 数据 格式 是 key-value 类 
型 的 ， 另 一 个 是 单 value 类 型 的 ， 这 两 个 RDD 的 value 数据 是 完全 一 样 的 。 那 么 ， 此 时 我 们 
可 以 只 使 用 key- value 类 型 的 那个 RDD， 因 为 其 中 已 经 包含 了 另 一 个 数据 。 对 于 类 似 这 种 多 
个 RDD 的 数据 有 重合 或 者 包含 的 情况 ， 我 们 应 该 尽量 复 用 一 个 RDD， 这 样 可 以 尽 可 能 地 减 
少 RDD 的 数量 ， 从 而 尽 可 能 减少 算 子 执行 的 次 数 。 

Spark 中 对 于 一 个 RDD 执行 多 次 算 子 的 默认 原理 : 每 次 对 一 个 RDD 执行 一 个 算 子 操作 
时 ， 都 会 重新 从 源头 处 计算 一 遍 ， 计 算出 那个 RDD， 然 后 再 对 这 个 RDD 执行 算 子 操作 。 这 
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种 方式 的 性 能 很 差 。 

因此 对 于 这 种 情况 ,建议 : 对 多 次 使 用 的 RDD 进行 持久 化 。 此 时 Spark 就 会 根据 持久 化 
策略 ,将 RDD 中 的 数据 保存 到 内 存 或 者 磁盘 中 。 以 后 每 次 对 这 个 RDD 进行 算 子 操作 时 ， 都 
会 直接 从 内 存 或 磁盘 中 提取 持久 化 的 RDD 数据 ， 然 后 执行 算 子 操作 ， 而 不 会 从 源头 处 重新 
计算 一 遍 RDD， 再 执行 算 子 操作 。 

















20.10.2 如何 复 用 RDD 算 子 


复 用 RDD 一 般 基 于 以 下 几 个 原则 。 

原则 一 : 避免 创建 重复 的 RDD。 

一 个 简单 的 例子 : 需要 对 名 为 “hello.txt” 的 HDFS 文件 进行 一 次 map 操作 ， 再 进行 一 
次 reduce 操作 。 也 就 是 说 ， 需 要 对 一 份 数据 执行 两 次 算 子 操作 。 错 误 的 做 法 : 对 于 同一 份 数 
据 执 行 多 次 算 子 操作 时 ， 创 建 多 个 RDD。 这 里 执行 了 两 次 textFile 方法 ， 针 对 同一 个 HDFS 
文件 ， 创 建 了 两 个 RDD， 然 后 分 别 对 每 个 RDD 都 执行 一 个 算 子 操作 。 这 种 情况 下 ，Spark 
需要 从 HDFS 上 两 次 加 载 hello.txt 文件 的 内 容 ， 并 创建 两 个 单独 的 RDD; 第 二 次 加 载 HDFS 
文件 以 及 创建 RDD 的 性 能 开销 ， 很 明显 是 白白 浪费 掉 的 。 

1. val RDD1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt") 

2 RDD1 -map 

3. val RDD2 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt") 

4. RDD2.reduce(...) 

正确 的 用 法 : 对 于 一 份 数据 执行 多 次 算 子 操作 时 ， 只 使 用 一 个 RDD。 这 种 写法 明显 比 上 

-种 写法 好 多 了 ， 因 为 我 们 对 于 同一 份 数据 只 创建 了 一 个 RDD， 然 后 对 这 个 RDD 执行 了 多 
次 算 子 操作 。 但 是 要 注意 ， 到 这 里 为 止 ， 优 化 还 没有 结束 ， 由 于 RDD1 被 执行 了 两 次 算 子 操 
作 ， 第 二 次 执行 reduce 操作 的 时 候 ， 还 会 再 次 从 源头 处 重新 计算 一 次 RDD1 的 数据 ， 因 此 还 
是 会 有 重复 计算 的 性 能 开销 。 

i val RDD1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt") 

ZRDDl mapls=-} 

3. RDD1 .reduce(...) 

要 彻底 解决 这 个 问题 ， 必 须 结合 “原则 三 : 对 多 次 使 用 的 RDD 进行 持久 化 ”， 才 能 保 
证 一 个 RDD 被 多 次 使 用 时 只 被 计算 一 次 。 

原则 二 : 尽 可 能 复 用 同一 个 RDD。 

一 个 简单 的 例子 : 有 一 个 <Long, String> 格 式 的 RDD, 即 RDD1。 由 于 业务 需要 , 对 RDD1 
执行 了 一 个 map 操作 ， 创 建 了 一 个 RDD2， 而 RDD2 中 的 数据 仅仅 是 RDD1 中 的 value 值 而 
已 。 也 就 是 说 ，RDD2 是 RDD1 的 子 集 。 错 误 的 做 法 : 

1. JavaPairRDD<Long, String> RDD1 = ... 


2. JavaRDD<Sstring> RDD2 = RDD]1 .map(...) 
3. // 分 别 对 RDD1 和 RDD2 执行 了 不 同 的 算 子 操作 
4 
S 





. RDD1.reduceByKey(...) 
2 RDD2smaplle ey 


上 面 这 个 case 中 , 其 实 RDD1 和 了 RDD2 的 区 别 无 非 就 是 数据 格式 不 同 而 已 , RDD2 的 数 
据 完全 就 是 RDD1 的 子 集 而 已 , 却 创 建 了 两 个 RDD, 并 对 两 个 RDD 都 执行 了 一 次 算 子 操作 。 
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此 时 会 因为 对 RDD1 执行 map 算 子 来 创建 RDD2， 而 多 执行 一 次 算 子 操作 ， 进 而 增加 性 能 开 
销 。 其 实 ， 在 这 种 情况 下 完全 可 以 复 用 同一 个 RDD。 可 以 使 用 RDD1， 既 做 reduceByKey 操 
作 ， 也 做 map 操作 。 进 行 第 二 个 map 操作 时 ， 只 使 用 每 个 数据 的 tuple. 2， 也 就 是 RDD1 中 
的 value 值 。 正 确 的 做 法 : 

1. JavaPairRDD<Long, String> RDD1 = ... 

2. RDD]1.reduceByKey(...) 

3. RDDi-map(tuple. 2..:) 

第 二 种 方式 相 较 第 一 种 方式 而 言 ， 很 明显 减少 了 一 次 RDD2 的 计算 开销 。 但 是 ， 到 这 里 
为 止 ， 优 化 还 没有 结束 ， 对 RDD1 我 们 还 是 执行 了 两 次 算 子 操作 ，RDD1 实际 上 还 是 会 被 计 
算 两 次 。 因 此 还 需要 配合 “原则 三 : 对 多 次 使 用 的 RDD 进行 持久 化 ”进行 使 用 ， 才 能 保证 
一 个 RDD 被 多 次 使 用 时 只 被 计算 一 次 。 

原则 三 : 对 多 次 使 用 的 RDD 进行 持久 化 。 

对 多 次 使 用 的 RDD 进行 持久 化 的 代码 示例 : 如 果 要 对 一 个 RDD 进行 持久 化 ， 只 要 对 这 
个 RDD 调用 Cache0 和 Persist0 即 可 。Cache 方法 表示 : 使 用 非 序列 化 的 方式 将 RDD 中 的 数 
据 全 部 尝试 持久 化 到 内 存 中 。 此 时 再 对 RDDI1 执行 两 次 算 子 操作 时 ， 只 有 在 第 一 次 执行 map 
算 子 时 ， 才 会 将 这 个 RDD1 从 源头 处 计算 一 次 。 第 二 次 执行 reduce 算 子 时 ， 就 会 直接 从 内 存 
中 提取 数据 进行 计算 ， 不 会 重复 计算 一 个 RDD。 正 确 的 做 法 : 

iE val RDD1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt") .Cache () 

2 AD mapl(le ey 

3. RDD1 .reduce(...) 

Persist 方法 表示 : 手动 选择 持久 化 级 别 ， 并 使 用 指定 的 方式 进行 持久 化 。 例 如 ， 
StorageLeveLMEMORY AND_DISK_SER 表示 ， 内 存 充 足 时 优先 持久 化 到 内 存 中 ， 内 存 不 充 
足 时 持久 化 到 磁盘 文件 中 。 而 且 其 中 的 _SER 后 绥 表 示 , 使 用 序列 化 的 方式 来 保存 RDD 数据 ， 
此 时 RDD 中 的 每 个 Partition 都 会 序列 化 成 一 个 大 的 字 节 数组 ， 然 后 再 持久 化 到 内 存 或 磁盘 
中 。 序 列 化 的 方式 可 以 减少 持久 化 的 数据 对 内 存 /磁盘 的 占用 量 ， 进 而 避免 内 存 被 持久 化 数据 
占用 过 多 ， 从 而 发 生 频繁 的 垃圾 回收 (Garbage Collection，GC) 。 

1. val RDD1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt") .Persist 

(StorageLevel .MEMORY AND DISK SER) 


2. RDD1.map(...) 
3. RDD1 .reduce(...) 
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章 主要 讲解 Spark 频繁 遇 到 的 性 能 问题 及 调 优 技巧 。21.1 节 讲 解 使 用 BroadCast 广播 
大 变量 和 业务 配置 信息 原理 和 案例 实战 ; 21.2 节 讲 解 使 用 Kryo 取代 Scala 默认 的 序列 器 原理 
和 案例 ，21.3 节 讲 解 使 用 FastUtil 优化 JVM 数据 格式 解析 和 案例 ，21.4 节 讲 解 Persist 及 
checkpoint 使 用 时 的 正 误 方式 ，21.5 节 讲 解 序列 化 导致 的 报错 原因 解析 和 调 优 : 21.6 节 讲解 
算 子 返回 NULL 产生 的 问题 及 解决 办 法 。 








21.1 使 用 BroadCast 广播 大 变量 和 业务 配置 信息 原理 
和 案例 实战 


本 节 讲 解 使 用 BroadCast 广播 大 变量 和 业务 配置 信息 原理 ; 使 用 BroadCast 广播 大 变量 和 
业务 配置 信息 案例 实战 。 


21.1.1 使 用 BroadCast 广播 大 变量 和 业务 配置 信息 原理 


-个 Spark Application 的 Driver 进程 其 实 就 是 我 们 写 的 Spark 作业 , 打包 成 Jar 运行 起 来 
的 主 进程 。 如 果 有 一 个 100MB 的 map〔 随 机 抽取 的 map〉， 创 建 10 个 副本 ， 网 络 传输 ， 分 
到 10 个 机 器 上 ， 则 占用 了 1GB 内 存 。 这 是 不 必要 的 网 络 消耗 和 内 存 消耗 。 如 果 你 是 从 哪 
个 表 里 面 读 取 了 一 些 维度 数据 ， 比 方 说 ， 所 有 商品 的 品类 的 信息 ， 在 某 个 算 子 函数 中 使 用 
到 100MB。 如 果 有 1000 个 Task， 就 会 有 100GB 的 数据 ， 要 进行 网 络 传输 ， 集 群 瞬间 性 能 
下 降 。 
广播 变量 允许 程序 员 将 一 个 只 读 的 变量 缓存 在 每 台 机 器 上 ， 而 不 用 在 任务 之 间 传 递 变 
量 。 广 播 变量 可 被 用 于 有 效 地 给 每 个 节点 一 个 大 输入 数据 集 的 副本 。Spark 还 尝试 使 用 高 效 
的 广播 算法 来 分 发 变量 ， 进 而 减少 通信 开销 。Spark 的 动作 通过 一 系列 的 步骤 执行 ， 这 些 步 
又 由 分 布 式 的 洗 牌 操作 分 开 。Spark 自动 地 广播 每 个 步骤 、 每 个 任务 需要 的 通用 数据 。 这 些 
广播 数据 被 序列 化 地 缓存 ， 在 运行 任务 前 被 反 序 列 化 出 来 。 这 意味 着 当 我 们 需要 在 多 个 阶段 
的 任务 之 间 使 用 相同 的 数据 ， 或 者 以 反 序列 化 形式 缓存 数据 是 十 分 重要 的 时 候 ， 显 式 地 创建 
广播 变量 才 有 用 。 
广播 变量 的 好 处 : 不 是 每 个 Task 一 份 变量 副本 ， 而 是 变 成 每 个 节点 的 Executor 才 一 份 
副本 。 这 样 ， 就 可 以 让 变量 产生 的 副本 大 大 减少 。 
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广播 变量 ， 初 始 的 时 候 ， 就 在 Driver 上 有 一 份 副本 。Task 在 运行 的 时 候 ， 想 要 使 用 广播 
变量 中 的 数据 ， 此 时 首先 会 在 自己 本 地 的 Executor 对 应 的 BlockManager 中 ， 尝 试 获取 变量 
副本 ; 如 果 本 地 没有 ，BlockManager 也 许 会 从 远程 的 Driver 上 去 获取 变量 副本 ; 也 有 可 能 从 
距离 比较 近 的 其 他 节点 的 Executor 的 BlockManager 上 去 获取 ,并 保存 在 本 地 的 BlockManager 
中 ; BlockManager 负责 管理 某 个 Executor 对 应 的 内 存 和 磁盘 上 的 数据 ， 此 后 这 个 Executor 
上 的 Task， 都 会 直接 使 用 本 地 的 BlockManager 中 的 副本 。 

例如 ，50 个 Executor，1000 个 Task。 一 个 map 有 10MB 。 默 认 情况 下 ，1000 个 Task， 
1000 份 副本 。10GB 的 数据 ， 网 络 传输 ， 在 集群 中 耗费 10GB 的 内 存 资源 。 

如 果 使 用 了 广播 变量 。50 个 Executor，50 个 副本 。500MB 的 数据 ， 网 络 传输 ， 而 且 不 
一 定 都 是 从 Driver 传输 到 每 个 节点 ， 还 可 能 是 就 近 从 最 近 的 节点 的 Executor 的 bockmanager 
上 拉 取 变量 副本 ， 网 络 传输 速度 大 大 增加 ; 内存 消耗 为 500MB。 


21.1.2 ”使 用 BroadCast 广播 大 变量 和 业务 配置 信息 案例 实战 














广播 变量 使 用 SparkContext 的 broadcast 方法 ， 传 入 要 广播 的 变量 即 可 。 


了 Final Broadcast<Map<String, Map<String, IntList>>> broadcast = 
sc.broadcast (fastutilDateHourExtractMap); 


使 用 广播 变量 的 时 候 ， 直 接 调 用 广播 变量 (Broadcast 类 型 ) 的 value() / getValueO0 ， 可 
以 获取 到 之 前 封装 的 广播 变量 。 


1. Map<String, Map<String, IntList>> dateHourExtractMap = broadcast. 
Value (); 


21.2 使 用 Kryo 取代 Scala 默认 的 序列 器 原理 和 案例 实战 


本 节 讲 解 使 用 Kryo 取代 Scala 默认 的 序列 器 原理 ; 使 用 Kryo 取代 Scala 默认 的 序列 器 案 
例 实战 。 


21.2.1 使 用 Kryo 取代 Scala 默认 的 序列 器 原理 


序列 化 对 于 提高 分 布 式 程序 的 性 能 起 到 非常 重要 的 作用 。 一 个 不 好 的 序列 化 方式 (如 序 
列 化 模式 的 速度 非常 慢 或 者 序列 化 结果 非常 大 ) 会 极 大 地 降低 计算 速度 。 很 多 情况 下 ， 这 是 
优化 Spark 应 用 的 第 一 选择 。Spark 试图 在 方便 和 性 能 之 间 获 取 一 个 平衡 。Spark 提供 了 两 个 
序列 化 类 库 。 

Java 序列 化 : 默认 情况 下 ，Spark 采用 Java 的 ObjectOutputStream 序列 化 一 个 对 象 。 该 
方式 适用 于 所 有 实现 了 java.io.Serializable 的 类 。 通过 继承 java.io.Externalizable, 能 进一步 控 
制 序列 化 的 性 能 。Java 序列 化 非常 灵活 ， 但 是 速度 较 慢 ， 在 某 些 情况 下 序列 化 的 结果 也 比 
较 大 。 

Kryo 序列 化 : Spark 也 能 使 用 Kryo( 版 本 2) 序列 化 对 象 。 Kryo 不 但 速度 极 快 ， 而 且 产 
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生 的 结果 更 紧凑 (通常 能 提高 10 倍 ) 。Kryo 的 缺点 是 不 支持 所 有 类 型 ， 为 了 更 好 的 性 能 ， 
需要 提前 注册 程序 中 使 用 的 类 (class〉。 

可 以 在 创建 SparkContext 前 ， 通 过 调用 System .setProperty("Spark.serializer", "Spark.Kryo 
Serializer")， 将 序列 化 方式 切换 成 Kryo。Kryo 不 能 成 为 默认 方式 的 唯一 原因 是 需要 用 户 进行 
注册 ; 但 是 ， 对 于 任何 “网 络 密集 型 ” (Cnetwork-intensive) 的 应 用 ， 建 议 都 采用 该 方式 。 





21.2.2 ”使 用 Kryo 取代 Scala 默认 的 序列 器 案例 实战 


KryoSerialization 速度 快 ， 可 以 配置 为 任何 org.apache.Spark.serializer 的 子 类 ， 但 Kryo 也 
不 支持 所 有 实现 了 java.io.Serializable 接口 的 类 型 ， 它 需要 在 程序 中 register 需要 序列 化 的 
类 型 ， 以 得 到 最 佳 性 能 。 

SparkConf 初始 化 时 使 用 以 下 语句 来 使 用 Kryo。 


1. conf.set("Spark.serializer", "org.apache.Spark.serializer.KryoSerializer" 


这 个 设置 不 仅 控制 各 个 Worker 节点 之 间 的 混 洗 数据 序列 化 格式 ， 同 时 还 控制 RDD 存 到 
磁盘 上 的 序列 化 格式 。 需 要 在 使 用 时 注册 需要 序列 化 的 类 型 ， 建 议 在 对 网 络 敏感 的 应 用 场景 
下 使 用 Kryo。 

如 果 自 定义 类 型 需要 使 用 Kryo 序列 化 ， 可 以 用 registerKryoClasses 方法 先 注册 。 

val conf = new SparkConf.setMaster(...).setAppName(...) 

2. conf.registerKryoClasses (Array(classOf[MyClassl]，classof[MyClass2])) 

3. val sc = new SparkContext (conf) 

最 后 ， 如 果 不 注册 需要 序列 化 的 自 定义 类 型 ，Kryo 也 能 工作 ， 不 过 ， 每 个 对 象 实例 的 序 
列 化 结果 都 会 包含 一 份 完整 的 类 名 ， 这 有 点 浪费 空间 。 


21.3 ”使 用 FastUtil 优化 JVM 数据 格式 解析 和 人 案例 实战 


本 节 讲 解 使 用 FastUtil 优化 JVM 数据 格式 解析 以 及 使 用 FastUtil 优化 JVM 数据 格式 案例 


21.3.1 使 用 FastUtil 优化 JVM 数据 格式 解析 


FastUtil 是 扩展 了 Java 标准 集合 框架 (Map、List、Set; HashMap、ArrayList、HashSet) 
的 类 库 ， 提 供 了 特殊 类 型 的 map、set、list 和 queue。 

FastUtil 能 够 提供 更 小 的 内 存 占用 ， 更 快 的 存 取 速 度 ; 我 们 使 用 FastUti 提供 的 集合 类 ， 
来 替代 自己 平时 使 用 的 JDK 的 原生 的 Map、List、Set， 好 处 在 于 ，FastUtil 集合 类 可 以 减 小 
内 存 的 占用 ， 并 且 在 进行 集合 的 遍历 、 根 据 索 引 (或 者 key) 获取 元 素 的 值 和 设置 元 素 的 值 
时 ， 提 供 更 快 的 存 取 速 度 。 

FastUtil 也 提供 了 64 位 的 array、set 和 list， 以 及 高 性 能 快速 的 、 实 用 的 IO 类 ， 来 处 理 
二 进 制 和 文本 类 型 的 文件 。 
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FastUtil 最 新 版 本 要 求 Java 7 以 及 以 上 版 本 。 

FastUtil 的 每 种 集合 类 型 ， 都 实现 了 对 应 的 Java 中 的 标准 接口 (如 FastUtil 的 map， 实 现 
了 Java 的 Map 接口 ) ， 因 此 可 以 直接 放 入 已 有 系统 的 任何 代码 中 。 

FastUtil 还 提供 了 一 些 JDK 标准 类 库 中 没有 的 额外 功能 〈 如 双向 迭代 器 ) 。 

FastUtil 除了 对 象 和 原始 类 型 为 元 素 的 集合 ，FastUtil 也 提供 引用 类 型 的 支持 ， 但 是 对 引 
用 类 型 是 使 用 等 于 号 (=) 进行 比较 的 ， 而 不 是 equals 方法 。 

FastUtil 尽量 提供 了 在 任何 场景 下 都 是 速度 最 快 的 集合 类 库 。 

在 Spark 中 应 用 FastUtil 的 场景 : 

(1) 如 果 算 子 函数 使 用 了 外 部 变量 ; 那么 ， 第 一 ， 可 以 使 用 Broadcast 广播 变量 优化 ; 
第 二 ， 可 以 使 用 Kryo 序列 化 类 库 ， 提 升序 列 化 性 能 和 效率 ; 第 三 ， 如 果 外 部 变量 是 某 种 比 
较 大 的 集合 ， 那 么 可 以 考虑 使 用 FastUtil 改写 外 部 变量 ， 首 先 从 源头 上 就 减少 内 存 的 占用 ， 
通过 广播 变量 进一步 减少 内 存 占用 ， 再 通过 Kryo 序列 化 类 库 进 一 步 减少 内 存 占 用 。 

(2) 在 算 子 函数 里 ， 也 就 是 Task 要 执行 的 计算 逻辑 里 面 ， 如 果 罗 辑 中 要 创建 比较 大 的 
Map、List 等 集合 ， 可 能 会 占用 较 大 的 内 存 空间 ， 而 且 可 能 涉及 消耗 性 能 的 遍历 、 存 取 等 集 
合 操作 ; 那么 ， 此 时 可 以 考虑 将 这 些 集合 类 型 使 用 FastUtil 类 库 重 写 ， 使 用 了 FastUtil 集合 类 
以 后 ， 就 可 以 在 一 定 程度 上 减少 Task 创建 出 来 的 集合 类 型 的 内 存 占用 ， 避 人 免 Executor 内 存 
频繁 占 满 ， 频 繁 唤起 GC， 导 致 性 能 下 降 。 

FastUtil 调 优 虽然 能 起 到 一 些 作用 ， 但 作用 并 不 是 那么 强大 ， 性 能 不 会 得 到 惊人 的 提升 。 


21.3.2 使 用 FastUtil 优化 JVM 数据 格式 案例 实战 























使 用 FastUtil 优化 JVM 数据 格式 案例 实战 首先 在 pom.xml 中 引用 FastUtil 的 包 , 拉 取 Jar 
包 的 时 间 可 能 比较 长 。 
<dependency> 
<groupId>fastutil</groupId> 
<artifactId>fastutil</artifactId> 
<version>5.0.9</version> 
</dependency> 


FastUtil 优化 基本 都 类 似 于 IntList 的 格式 。 


1. List<Integer> => IntList 


前 级 就 是 集合 的 元 素 类 型 :特殊 的 就 是 Map，Int2IntMap， 代 表 了 key-value 映射 的 元 素 
类 型 。 除 此 之 外 ， 刚 才 也 看 到 了 ， 还 支持 object、reference。 
FastUtil 的 示例 代码 如 下 。 


import it.unimi .dsi.fastutil.ints.IntArrayList; 
import it.unimi.dsi.fastutil.ints.IntList; 


AapODPp 


心 w IN 请 


SparkConf conf = new SparkConf () .setApPName (Constants.SPARK APP NAME 
SESSION) 

.registerKryoClasses (new Class[]{ 

CategorySortKey.class, 

rntilst clasah)s 

// 注 意 ， 要 在 SparkConf 里 注册 自 定义 的 类 


wo 
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10. /#** 
* EastUtil 的 使 用 很 简单 , 如 List<Integer> 的 1ist, 对 应 到 FastUtil, 就 是 IntList 
Eh * 
125 
13. Map<String, Map<String, IntList>> fastutilDateHourExtractMap = new 


HashMap<String, Map<String, IntList>>(); 

14. for(Map.Entry<String, Map<String, List<Integer>>> dateHourExtractEntry : 
dateHourExtractMap.entrySet()) { 

15. String date = dateHourExtractEntry.getKey(); 


16. Map<String, List<Integer>> hourExtractMap = dateHourExtractEntry. 
getValue (); 
17. Map<String, IntList> fastutilHourExtractMap = new HashMap<String, 


IntList>()s 
18. for (Map .Entry<String，List<Integer>> hourExtractEntry : hourExtractMap. 
entrySet()) { 


95 String hour = hourExtractEntry.getKey () 7 

UL 司 List<Integer> extractList = hourExtractEntry.getValue () 

2 IntList fastutilExtractList = new IntArrayList(); 

2 for(tinE T= O71 < oxtractl list. SG 人 TEN 

235 fastutilExtractList.add (extractList.get (i)); 

24. } 

2 fastutilHourExtractMap.put (hour, fastutilExtractList); 

2 } 

:站 fastutilDateHourExtractMap.put (date, fastutilHourExtractMap); 
ee 


21.4 Persist 及 checkpoint 使 用 时 的 正 误 方式 


1. Persist 的 正 误 使 用 方式 


Spark 支持 缓存 中 间 结 果 到 内 存 。 当 高 速 缓 存 RDD，Spark 分 区 能 存 于 计算 节点 的 内 存 
或 磁盘 〈 依 赖 于 请 求 方式 ) 。Spark 将 从 持久 化 分 区 中 返回 数据 快速 做 进一步 action 行动 ) 
处 理 。 
调用 Cache 或 Persist 方法 将 RDD 持久 化 。 当 执行 第 一 个 action (行动 ) 时 RDD 被 缓存 。 
因此 在 下 面 例子 中 , 仅仅 collect action 行动) 将 从 预先 计算 的 值 获 利 。 
1. myRDD.Cache () 
2. myRDD.count () 
3. myRDD.collect() 
前 面 提 到 Persist 或 Cache 两 个 方法 ， 让 Spark 知道 在 计算 后 去 临时 存储 RDD。 它 们 默 
认 存 储 RDD 到 内 存 中 。 它 们 之 间 的 不 同 是 ，Persist 也 提供 了 API 指定 存储 级 别 , 方便 在 某 
种 情形 下 改变 默认 行为 。 
Spark 有 许多 种 持久 化 RDD 的 方式 。 
口 MEMORY _ ONLY: 当 用 这 种 类 型 的 存储 级 别 时 , Spark 将 RDD 作为 未 序列 化 的 Java 
对 象 存 于 内 存 。 如 果 Spark 估算 不 是 所 有 的 分 区 能 在 内 存 中 容纳 ，Spark 将 不 保存 数 
据 。 如 果 在 后 续 的 处 理 管道 中 需要 数据 ， 将 基于 RDD 血缘 关系 重新 计算 。 此 方式 有 
一 个 缺点 : 比较 其 他 储存 级 ， 将 使 用 大 量 内 存 , 如 果 缓存 过 多 小 对 象 ， 将 对 垃圾 回收 
产生 压力 。 用 这 个 存储 级 别 缓存 RDD, 能 用 下 面 的 方法 。 


ls myRDD.Cache () 
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ID 


. myRDD.Persist() 
这 myRDD. Persist (StorageLevel .MEMORY ONLY) 


MEMORY_ONLY_SER: RDD 也 仅 存 于 内 存 , 但 是 以 Java 序列 对 象 的 形式 存储 。 它 
在 空间 上 更 加 高 效 ,， 因 为 数据 将 更 加 紧凑 ,因此 将 能 缓存 更 多 数据 。 
MEMORY ONLY_SER 存储 级 别 的 缺点 是 CPU 密集 的 (要 进行 密集 的 读 操作 , 更 耗 
费 CPU 资源 ) ， 因 为 对 象 在 读 写 时 会 序列 化 与 解 序列 化 。 序 列 化 的 Java 对 象 按 分 区 
存 为 字 节 数组 。 缓冲 RDD 时 使 用 的 序列 化 器 的 选择 很 重要 。 能 用 下 面 的 方法 以 序列 
化 形式 仅 存 于 内 存 。 


- myRDD.Persist (StorageLevel .MEMORY ONLY SER) 


MEMORY AND_DISK: 这 种 存储 级 别 与 仅 存 于 内 存 相似 ，Spark 将 尝试 在 内 存 中 组 
存 整 个 RDD 作为 未 序列 化 的 Java 对 象 ， 但 是 这 次 如 果 有 分 区 不 能 完全 容纳 于 内 存 ， 
将 写 到 磁盘 。 如 果 这 些 数据 稍 后 在 其 他 操作 中 使 用 ， 它 们 将 不 用 重新 计算 ， 而 是 直 
接 从 磁盘 读 取 。 这 个 存储 级 别 依然 使 用 大 量 内存 ,， 除 此 之 外 ， 它 也 隐 含 了 CPU 与 磁 
盘 IO 上 的 载荷 。 我 们 需要 思考 哪 种 方式 更 加 昂贵 : 是 写 内 存 容纳 不 下 的 分 区 到 硬盘 
需要 时 读 取 ， 还 是 每 次 使 用 它们 再 重新 计算 。 


用 下 面 的 代码 将 RDD 缓存 于 内 存 与 磁盘 。 


1 


口 


:有 


口 


myRDD. Persist (StorageLevel .MEMORY AND DISK) 


MEMORY AND_DISK_SER: 此 存储 级 别 与 MEMORY_AND_DISK 相似 ; 它们 的 不 
同 仅仅 在 于 数据 以 序列 化 形式 存 于 内 存 。 这 次 RDD 更 多 的 分 区 将 能 被 内 存 容纳 ， 
因为 它们 是 更 加 紧凑 的 , 写 于 磁盘 也 会 占 更 少 空间 。 此 选项 对 比 
MEMORY AND_DISK 是 更 加 CPU 密集 的 。MEMORY AND_DISK_SER 优先 尝试 
将 数据 缓存 在 内 存 中 ， 内 存 缓存 不 下 才 写 入 磁盘 ， 以 序列 化 对 象 格式 保存 于 内 存 及 
磁盘 的 方法 如 下 。 
myRDD. Persist (StorageLevel .MEMORY AND DISK_ SER) 

DISK_ONLY : 用 此 选项 将 避免 内 存 消耗 ， 空 间 消耗 也 很 低 ， 因 为 数据 是 序列 化 格 
式 的 。 因 为 整个 数据 集 不 得 不 解 序列 化 、 序 列 化 、 从 磁盘 读 写 , 使 得 CPU 载荷 比较 
高 ， 也 产生 磁盘 io 压力 。 例 如 : 


myRDD. Persist (StorageLevel .DISK ONLY) 


两 节点 缓存 。 


所 有 上 面 的 存储 级 别 能 应 用 到 集群 的 两 结 点 .RDD 的 每 个 分 区 将 被 复制 到 两 节点 的 内 存 
或 硬盘 。API 用 法 : 


AODP 


口 


myRDD. Persist (StorageLevel .MEMORY ONLY 2) 


. myRDD.Persist (StorageLevel .MEMORY ONY SER 2) 

. myRDD.Persist (StorageLevel .MEMORY AND DISK 2) 

- myRDD.Persist (StorageLevel .MEMROY AND DISK SER 2) 
- myRDD.Persist (StorageLevel.DISK ONLY 2) 


堆 外 存储 。 


在 这 种 情形 下 , 序列 化 RDD 将 存 于 Alluxio(Tachyon) 的 堆 外 存储 。 这 种 选项 有 很 多 好 处 。 
最 重要 的 是 ， 能 在 Executor 及 其 他 应 用 中 共享 大 量 内 存 ， 垃 圾 回收 带 来 的 消耗 被 减少 。 用 堆 


= 
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外 持久 化 技术 避免 在 Executor 骨 溃 的 情形 下 丢失 内 存 缓存 。 


a myRDD. Persist (StorageLevel .OFF HEAP) 


如 果 Spark 应 用 持久 化 需要 的 内 存 多 过 实际 提供 的 ， 使 用 的 分 区 会 尽 可 能 最 少 地 从 内 存 
中 驱逐 。 然 而 ，Spark Cache (缓存) 是 故障 容忍 的 , 它 将 重新 计算 丢失 的 分 区 ， 不 需要 担心 
应 用 会 崩溃 。 但 是 需要 特别 在 意 缓存 什么 数据 及 缓存 多 少 。 当 使 用 缓存 的 数据 集 去 提升 应 用 
性 能 ,最 终 可 能 会 增加 执行 时 间 。 换 一 种 方式 讲 ， 如果 缓存 了 过 多 不 需要 的 数据 , 有 用 的 分 区 
将 被 驱逐 ， 再 进一步 执行 action (行动 ) 时 ， 它 将 被 重新 计算 。 

2. 使 用 checkpoint 错 误 及 正确 的 方式 


建议 在 执行 checkpoint() 方 法 前 先 对 RDD 进行 Persist 操作 。 

为 什么 要 这 样 呢 ? 因为 checkpoint 会 触发 一 个 Jpb， 如 果 执行 checkpoint 的 RDD 是 由 其 
他 RDD 经 过 许多 计算 转换 过 来 的 ， 如 果 没 有 Persist 这 个 RDD， 那 么 又 要 从 头 开始 计算 该 
RDD， 也 就 是 做 了 重复 的 计算 工作 ， 所 以 建议 先 PersistRDD， 然 后 再 checkpoint，checkpoint 
会 丢弃 该 RDD 的 以 前 的 依赖 关系 ， 使 该 RDD 成 为 顶层 父 RDD， 这 样 在 失败 的 时 候 只 需要 
恢复 该 RDD, 而 不 需要 重新 计算 该 RDD， 这 在 迭代 计算 中 是 很 有 用 的 。 假 设 你 在 迭代 1000 
次 的 计算 中 在 第 999 次 失败 了 ， 而 车 没有 checkpoint， 则 只 能 重新 开始 恢复 ， 如 果 恰 好 在 第 
998 次 从 代 的 时 候 做 了 一 个 checkpoint, 那么 只 需要 恢复 第 998 次 产生 的 RDD, 然后 再 执行 2 
次 迭代 完成 总 共 1000 次 的 迭代 ， 这样 效率 就 很 高 ， 比 较 适用 于 夫 代 计算 非常 复杂 的 情况 , 也 
就 是 恢复 计算 代价 非常 高 的 情况 ， 适 当 进 行 checkpoint 会 有 很 大 的 好 处 。 

















21.5 序列 化 导致 的 报错 原因 解析 和 调 优 实战 


本 节 讲解 序列 化 导致 的 报错 原因 解析 以 及 调 优 实战。 
21.5.1 报错 原因 解析 


如 果 出 现 “org.apache.Spark.SparkException: Task not serializable” 错 误 ， 一 般 是 因为 在 
map、filter 等 的 参数 使 用 了 外 部 的 变量 ， 但 是 这 个 变量 不 能 序列 化 〈 不 是 说 不 可 以 引用 外 部 
变量 ， 只 是 要 做 好 序列 化 工作 ) 。 其 中 最 普遍 的 情形 是 : 当 引 用 了 某 个 类 〈 经 常 是 当前 类 ) 
的 成 员 函 数 或 变量 时 ， 会 导致 这 个 类 的 所 有 成 员 〈 整 个 类 ) 都 需要 支持 序列 化 。 虽 然 许 多 情 
形 下 ， 当 前 类 使 用 了 “extends Serializable” 声 明 支 持 序列 化 ， 但 是 由 于 某 些 字 段 不 支持 序列 
化 ， 仍 然 会 导致 整个 类 序列 化 时 出 现 问题 ， 最 终 导致 出 现 Task 未 序列 化 问题 。 





21.5.2 ” 调 优 实战 











于 Spark 程序 中 的 map、filter 等 算 子 内 部 引用 了 类 成 员 函 数 或 变量 导致 需要 该 类 所 有 
成 员 都 支持 序列 化 , 又 由 于 该 类 某 些 成 员 变量 不 支持 序列 化 ,最 终 引发 Task 无 法 序列 化 问题 。 
为 了 验证 上 述 原因 , 我 们 编写 了 一 个 实例 程序 , 如 下 所 示 。 该 类 的 功能 是 从 域名 列表 中 (RDD) 
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过 滤 得 到 特定 顶级 域名 (rootDomain， 如 .com,.cn,.org) 的 域名 列表 ， 而 该 特定 顶级 域名 需 在 


要 函数 调用 时 指定 。 
I class MyTest] (conf:String) extends Serializablel{ 
5 val list 三 5SE( aa-COom "Wb.com, ac as-COn-CR "ad.org")s 
3. Private val SparkConf = new SparkConf () .setAppName ("AppName"); 
4. private val sc = new SparkContext (SparkConf); 
5. val RDD = sc.parallelize (list); 
6. private val rootDomain = conf 
7. def getResult(): Array[ (String)] = { 
8. val result = RDD.filter(item => item.contains (rootDomain)) 
9. result.take (result.count() .toInt) 
i 
3 


依据 上 述 分 析 的 原因 , 由 于 依赖 了 当前 类 的 成 员 变 量 , 所 以 导致 当前 类 全 部 需要 序列 化 。 
当前 类 的 某 些 字段 未 做 好 序列 化 ， 导 致 出 错 。 实 际 情况 与 分 析 的 原因 一 致 ， 运 行 过程 中 出 现 
的 错误 如 下 所 示 。 分 析 下 面 的 错误 报告 ， 可 知 错误 是 由 于 sc (SparkContext) 引起 的 。 


Ee 


2 


~ am 心 w 


wo 


Exception in thread "main" org.apache.Spark.SparkException: Task not 
serializable 
at org.apache.Spark.util.ClosureCleaner$ .ensureSerializable (ClosureCleaner. 
scala:166) 
at org.apache.Spark.util.ClosureCleaner$ .clean (ClosureCleaner.scala:158) 
at org.apache.Spark.SparkContext.clean (**SparkContext**.scala:1435) 
Caused by: java.io.NotSerializableException: org.apache.Spark.SparkContext 
- field (class "com.ntci.test.MyTestl", name: "sc", type: "class 
org.apache.Spark.SparkContext") 
- object (class "com.ntci.test.MyTestl", com.ntci.test.MyTest1@63700353) 
- field (class "com.ntci.test.MyTestl$$anonfun$1", name: "$outer", 
type: "class com.ntci.test.MyTest1") 


为 了 验证 上 述 结论 ， 将 不 需要 序列 化 的 成 员 变 量 使 用 关键 字 “@transient” 标 注 ， 表 示 不 


序列 化 当 


: 


2 


cn 心 O 


前 类 中 的 这 两 个 成 员 变量 ， 再 次 执行 函数 ， 同 样 报错 。 


Exception in thread "main" org.apache.Spark.SparkException: Task not 
serializable 

at org.apache.Spark.util.ClosureCleaner$ .ensureSerializable (ClosureCleaner. 

scala:166) 

Caused by: java.io.NotSerializableException: org.apache.Spark.SparkConf 
- field (class "com.ntci.test.MyTestl1l", name: "SparkConf", type: 
"class org.apache.Spark.**SparkConf**") 

- object (class "com.ntci.test.MyTestl", com.ntci.test.MyTestl@ 
6107799e) 


虽然 错误 原因 相同 ， 但 是 这 次 导致 错误 的 字段 是 SparkConf (SparkConf) 。 使 用 同样 的 
“(@transient” 标 注 方式 ， 将 sc (SparkContext) 和 SparkConf (SparkConf) 都 标注 为 不 需 序 列 
化 ， 再 次 执行 时 ， 程 序 正常 。 


Cn 心 wN 


class MyTest1l (conf:String) extends Serializable{ 
val Mist = List(na-con", "ww bcom, “ach, “ACom cn va. Orgm 
@transient 

private val SparkConf = new SparkConf() .setAppName ("AppName"™"); 
Qtransient 

private val sc = new SparkContext (SparkConf) 7 
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val RDD = sc.parallelize (list); 

private val rootDomain = conf 

def getResult(): Array[ (String)] = { 

val result = RDD.filter(item => item.contains (ootDomain) ) 
result.take (result.count () .toInt) 


} 
} 


所 以 ， 通 过 上 面 的 例子 可 以 得 到 结论 : 由 于 Spark 程序 中 的 map、filter 等 算 子 内 部 引用 
了 类 成 员 函 数 或 变量 ， 导 致 该 类 所 有 成 员 都 需要 支持 序列 化 ， 又 由 于 该 类 某 些 成 员 变量 不 支 
持 序 列 化 ,最 终 引发 Task 无 法 序列 化 问题 。 相 反 ,， 对 类 中 那些 不 支持 序列 化 问题 的 成 员 变 量 


标注 后 ， 


使 得 整个 类 能 够 正常 序列 化 ， 最 终 消除 Task 未 序列 化 问题 。 


引用 成 员 函 数 的 实例 分 析 : 


成 员 


变量 与 成 员 函 数 对 序列 化 的 影响 相同 ， 即 引用 了 某 类 的 成 员 函 数 ， 会 导致 该 类 所 有 


成 员 都 支持 序列 化 。 为 了 验证 这 个 假设 ， 我 们 在 map 中 使 用 了 当前 类 的 一 个 成 员 函 数 ， 作 用 
是 如 果 当 前 域名 没有 以 “www.” 开 头 ， 那 么 就 在 域名 头 部 添加 “www.” 前 缀 〈 注 : 由 于 
rootDomain 是 在 getResult 函数 内 部 定义 的 ,所 以 就 不 存在 引用 类 成 员 变量 的 问题 ， 也 就 不 存 
在 和 排除 了 上 一 个 例子 讨论 和 引发 的 问题 。 因 此 ， 这 个 例子 主要 讨论 成 员 函 数 引用 的 影响 ; 
此 外 ， 不 直接 引用 类 成 员 变量 也 是 解决 这 类 问题 的 一 个 手段 ， 如 本 例 中 为 了 消除 成 员 变 量 的 
影响 而 在 函数 内 部 定义 变量 的 这 种 做 法 ) 。 下 面 的 代码 同样 会 报错 ， 同 上 面 的 例子 一 样 ， 由 
于 当前 类 中 的 sc (SparkContext) 和 SparkConf (SparkConf) 两 个 成 员 变 量 没有 做 好 序列 化 处 
理 ， 导 致 当前 类 的 序列 化 出 现 问题 。 








c class MyTest1l (conf:String) extends Serializable{ 

人 val list = LisE( a com "uw De Comn “ac "aCon cn "a org )y 
3. private val SparkConf = new SparkConf () .setAppName ("AppName"); 
4. private val sc = new SparkContext (SparkConf); 

5. val RDD = sc.parallelize(list); 

6 

7. def getResult(): Array[ (String)] = { 

8. val rootDomain = conf 

9. val result = RDD.filter(item => item.contains (rootDomain)) 

10 .map (item => addWWW(item) ) 

11. result.take (result.count () .toInt) 

2 

13. def addWwW (str:String) :String = { 

14. if(str.startsWith ("www.")) 

TS SEE 

16. else 

17. "www."+str 

0 

:2 


如 同 前 面 的 做 法 ， 将 sc (SparkContext) 和 SparkConf (SparkConf) 两 个 成 员 变 量 使 

















“@transient” 标 注 后 ， 使 当前 类 不 序列 化 这 两 个 变量 ， 则 程序 可 以 正常 运行 。 此 外 ， 与 成 员 
变量 稍 有 不 同 的 是 ， 由 于 该 成 员 函 数 不 依赖 特定 的 成 员 变量 ， 因 此 可 以 定义 在 scala 的 object 
中 类似 于 Java 中 的 static 函数 ) ， 这 样 也 取消 了 对 特定 类 的 依赖 。 如 下 面 的 例子 所 示 ， 将 
addWWW 放 到 一 个 object 对 象 CUtilTool) 中 , 在 filter 操作 中 直接 调用 ， 这 样 处 理 以 后 ， 程 
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序 能 够 正常 运行 。 


def getResult () : Array[ (String)] = { 
val rootDomain = conf 
val result = RDD.filter(item => item.contains (rootDomain)) 
-map (item => UtilTool.addWWW (item) ) 
result.take (result.count () .toInt) 
} 
object UtilTool { 
def adqWWW (str:String) :String = { 
if(str.startsWith ("www.")) 
a3 
: else 


POWoOJaAAoODp 
a 


"Www."+str 


} 


记 户 户 
心 w ID 


SE 


如 上 所 述 ， 引 用 了 某 类 成 员 函 数 ， 会 导致 该 类 及 所 有 成 员 都 需要 支持 序列 化 。 因 此 ， 对 
于 使 用 了 某 类 成 员 变 量 或 函数 的 情形 ， 首 先 该 类 需要 序列 化 (extends Serializable) ， 同 时 需 
要 对 某 些 不 需要 序列 化 的 成 员 变量 进行 标记 ,以 避免 对 序列 化 造成 影响 。 对 于 上 面 两 个 例子 ， 
由 于 引用 了 该 类 的 成 员 变 量 或 函数 ， 所 以 导致 该 类 以 及 所 有 成 员 支持 序列 化 ， 为 了 消除 某 些 
成 员 变 量 对 序列 化 的 影响 ， 使 用 “@transient” 进 行 标注 。 

为 了 进一步 验证 关于 整个 类 需要 序列 化 的 假设 , 这 里 在 上 面 例子 使 用 “@transient” 标 注 
后 并 且 能 正常 运行 的 代码 基础 上 ， 将 类 序列 化 的 相关 代码 删除 (去 掉 extends Serializable) ， 
这 样 程序 执行 会 报 该 类 为 序列 化 的 错误 ， 如 下 所 示 。 所 以 ， 这 个 实例 说 明了 上 面 的 假设 。 

1. Caused by: java.io.NotSerializableException: com.ntci.test.MyTest1 

总 - field (class "com.ntci.test.MyTestl$$anonfun$1", name: "$outer", 

type: "class com.ntci.test.MyTest1") 

通过 上 面 的 例子 可 以 说 明 : map 等 算 子 内 部 可 以 引用 外 部 变量 和 某 类 的 成 员 变量 ， 但 是 
要 做 好 该 类 的 序列 化 处 理 。 首 先是 该 类 需要 继承 Serializable 类 ， 此 外 ， 对 类 中 某 些 序列 化 会 
出 错 的 成 员 变 量 做 好 处 理 ， 这 也 是 Task 未 序列 化 问题 的 主要 原因 。 出 现 这 类 问题 ， 首 先 查 
看 未 能 序列 化 的 成 员 变量 是 哪个 ， 对 于 可 以 不 需要 序列 化 的 成 员 变量 ， 可 使 用 “@transient” 
标注 。 

此 外 ， 也 不 是 map 操作 所 在 的 类 必须 序列 化 不 可 (继承 Serializable 类 ) ， 对 于 不 需要 引 
用 某 类 成 员 变量 或 函数 的 情形 ， 就 不 会 要 求 相 应 的 类 必须 实现 序列 化 ， 如 下 面 的 例子 所 示 。 
filter 操作 内 部 没有 引用 任何 类 的 成 员 变 量 或 函数 , 因此 当前 类 不 用 序列 化 , 程序 可 正常 执行 。 
class MyTest1l (conf:String) { 

val list = Llst(Ma com, “wD comn "a cn ascomn chr "a ory)s 
private val SparkConf = new SparkConf () .setAppName ("AppName"); 


private val sc = new SparkContext (SparkConf); 
val RDD = sc.parallelize (list); 


def getResult(): Array[ (String)] = { 

val rootDomain = conf 

val result = RDD.filter(item => item.contains (rootDomain)) 
10. result.take (result.count () .toInt) 

:Bb } 


oo~awm 必 ww 


解决 办 法 与 编程 建议 : 承 上 所 述 ， 这 个 问题 主要 是 引用 了 某 类 的 成 员 变 量 或 函数 ， 并 且 
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相应 的 类 没有 做 好 序列 化 处 理 导致 的 。 解 决 这 个 问题 有 以 下 两 种 方法 : 不 在 (或 不 直接 在 ) 
map 等 闭 包 内 部 直接 引用 某 类 (通常 是 当前 类 ) 的 成 员 函 数 或 成 员 变量 ， 如 果 引 用 了 某 类 的 
成 员 函 数 或 变量 ， 则 需 对 相应 的 类 做 好 序列 化 处 理 。 
(1) 不 在 (或 不 直接 在 ) map 等 闭 包 内 部 直接 引用 某 类 成 员 函 数 或 成 员 变量 。 
对 于 依赖 某 类 成 员 变 量 的 情形 : 
口 如 果 程 序 依赖 的 值 相对 固定 ， 可 取 固 定 的 值 ， 或 定义 在 map、filter 等 操作 内 部 ， 或 
定义 在 scala object 对 象 中 类似 于 Java 中 的 static 变量 ) 。 
口 如 果 依 赖 值 需要 程序 调用 时 动态 指定 (以 函数 参数 形式 ) ， 则 在 map、filter 等 操作 
时 ， 可 不 直接 引用 该 成 员 变 量 ， 而 是 在 类 似 上 面 例子 的 getResult 函数 中 根据 成 员 变 
量 的 值 重新 定义 一 个 局 部 变量 ， 这 样 ，map 等 算 子 就 无 需 引 用 类 的 成 员 变量 。 
对 于 依赖 某 类 成 员 函 数 的 情形 : 
如 果 函 数 功能 独立 ， 可 定义 在 scala object 对 象 中 (类 似 于 Java 中 的 static 方法 ) ， 这 样 
就 无 需 特定 的 类 。 
(2) 如 果 引 用 了 某 类 的 成 员 函 数 或 变量 ， 则 需 对 相应 的 类 做 好 序列 化 处 理 。 
对 于 这 种 情况 ， 需 对 该 类 做 好 序列 化 处 理 ， 首 先 该 类 继承 序列 化 类 ， 然 后 对 不 能 序列 化 
的 成 员 变 量 使 用 “@transient” 标 注 ， 告 诉 编译 器 不 需要 序列 化 。 
此 外 , 如 果 可 以 , 可 将 依赖 的 变量 独立 放 到 一 个 小 的 Class 中 , 让 这 个 Class 支持 序列 化 ， 
这 样 做 可 以 减少 网 络 传输 量 ， 提 高 效率 。 





21.6 算 子 返回 NULL 产生 的 问题 及 解决 办 法 


有 些 场景 下 并 不 需要 返回 具体 的 值 , 这 时 往往 会 返回 NULL 值 , 但 有 时 在 下 一 步 的 RDD 
操作 中 要 求 RDD 的 元 素 不 能 为 NULL。 如果 是 NULL, 就 会 抛 出 异常 ,这 时 可 以 在 返回 NULL 
的 基础 上 ， 在 下 一 步 的 时 候 通 过 Option 进行 模式 匹配 。 

还 有 一 种 方法 , 可 以 返回 一 个 特定 的 值 ,然后 在 下 一 步 的 业务 罗 辑 操作 前 进行 filter 操作 ， 
把 该 特定 的 值 过 滤 掉 ， 这 样 就 在 无 形 中 化 解 了 NULL 值 的 问题 。 
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本 章 讲解 Spark 集群 资源 分 配 及 并 行 度 调 优 最 佳 实践 。22.1 节 讲 解 实际 生产 环境 下 每 个 
Executor 内 存 及 CPU 的 具体 配置 及 原因 ; 22.2 节 讲 解 Spark 并 行 度 设置 最 佳 实践 。 


22.1 实际 生产 环境 下 每 个 Executor 内 存 及 CPU 的 具体 配置 
及 原因 


本 节 讲 解 内 存 的 具体 配置 及 原因 ;以 及 实际 生产 环境 下 一 般 每 个 Executor 的 CPU 的 有 具 
体 配 置 及 原因 。 


22.1.1 内 存 的 具体 配置 及 原因 





YARN Container 里 实际 的 内 存 结构 ， 即 YARN-Cluster 模式 下 Executor 内 存 使 用 的 实现 
方式 ， 如 图 22-1 所 示 。 


图 22-1 YARN 内 存 示意 图 


YARN nodemanager Tesource memory-mb 控制 在 每 个 节点 上 Container 能 够 使 用 的 最 大 
内 存 。 

可 以 用 Spark.Executor.memory 来 配置 每 个 Executor 使 用 的 内 存 总 量 。 例 如 : 

--Executor-memory 6GB 

Executor 可 使 用 的 内 存 中 ， 又 主要 分 为 以 下 三 块 : 

第 一 块 是 让 Task 执行 用 户 编写 的 代码 使 用 ， 默 认 占 Executor 总 内 存 的 20%。 

第 二 块 是 让 Task 通过 Shuffle 过 程 拉 取 了 上 一 个 Stage 的 Task 的 输出 后 , 进行 聚合 等 操 
作 时 使 用 ， 默 认 也 占 Executor 总 内 存 的 20%: 用 Spark.Shuffle memoryFraction 可 配置 比例 。 
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第 三 块 是 让 RDD Cache 使 用 ， 默 认 占 Executor 总 内 存 的 60%; 用 Spark.storage. 
memoryFraction 可 配置 比例 。 官 方 文档 建议 这 个 比值 不 要 超过 JVM Old Gen 区 域 的 比值 。 因 
为 RDD Cache 数据 通常 都 长 期 驻 留 于 内 存 ， 理 论 上 最 终 会 被 转移 到 Old Gen 区 域 (如果 该 
RDD 还 没有 被 删除 ) ， 如 果 这 部 分 数据 允许 的 尺寸 太 大 ， 势 必 把 Old Gen 区 域 占 满 ， 造 成 频 
繁 地 Full GC。 如 何 调整 这 个 比值 ， 取决 于 用 户 的 应 用 对 数据 的 使 用 模式 和 数据 的 规模 ， 粗 略 
来 说 ， 如 果 频 繁 发 生 Full GC， 可 以 考虑 降低 这 个 比值 ， 这 样 RDD Cache 可 用 的 内 存 空 间 减 
少 〈 剩 下 的 部 分 Cache 数据 就 需要 通过 Disk Store 写 到 磁盘 上 ) ， 会 带 来 一 定 的 性 能 损失 ， 
但 是 腾 出 了 更 多 的 内 存 空间 用 于 执行 任务 ， 减 少 了 Full GC 发 生 的 次 数 ， 反 而 可 能 改善 程序 
运行 的 整体 性 能 。 如 果 有 过 多 的 Minor GC， 而 不 是 Full GC,， 那么 可 以 为 Eden 分 配 更 大 的 内 
存 。 如 果 Eden 的 大 小 为 E， 那 么 可 以 通过 设置 -Xmn = 4/3 *EE〈 将 内 存 扩大 到 4/3 是 考虑 到 
Survivor 所 需要 的 空间 ) 。 举 一 个 例子 ， 如 任务 从 HDFS 读 取 数据 ， 那 么 任务 需要 的 内 存 空 
间 可 以 从 读 取 的 block 数量 估算 出 来 。 解 压 后 的 block 通常 为 解压 前 的 2 一 3 倍 ， 所 以 ， 如 果 
同时 执行 3 一 4 个 任务 ，block 的 大 小 为 64MB， 我 们 可 以 估算 出 Eden 的 大 小 为 4*3*64MB。 

还 有 一 个 YARN 特定 的 参数 非常 重要 。 即 Spark. YARN .Executor memoryOverhead 参数 。 
系统 分 配 可 选 的 堆 外 存储 。 因 此 ， 当 用 Spark.Executor.memory 分 配 8GB 的 内 存 时 ，YARN 
因为 Spark.YARN.Executor.memoryOverhead 实际 还 分 配给 Container 更 多 的 内 存 ， 默 认为 
Spark.Executormemory 的 7% 及 384MB 的 最 大 值 。 

虽然 我 们 定义 了 分 配给 Executor 的 总 内 存 ， 但 是 内 存 使 用 方式 并 不 明显 。Spark 对 于 不 
同 的 内 部 功能 ,需要 不 同 的 内 存 池 。 有 两 个 主要 分 支 ， 即 堆 内 存 和 堆 外 内 存 。 在 JVM 管理 的 
堆 范 围 内 ，Spark 对 3 个 独立 的 内 存 池 进行 权衡 。 图 22-2 所 示 为 Spark 内 存 示意 图 。 























存储 内 存 
(内 存 使 用 安全 系统 的 60%) 


Spark.Storage.memoryFraction 


| 展开 的 内 存 〈 存 储 内 存 的 20%) | 
| Spark.Storage.unrollFraction 








Shufe 内 存 〈 内 存 使 用 安全 系统 的 20% 
Spark.Shuffle.memoryFraction 











内 存 使 用 安全 系统 《〈 堆 空间 的 90%) 
Spark.Storage.safetyFraction 











Java 虚 拟 机 堆 空间 (512MB) 
Spark.Executormemory 











图 22-2 Spark 内 存 示意 图 


Spark 中 可 用 内 存 第 一 部 分 用 于 持久 化 RDDS 的 内 存 存储 .持久 化 RDD 是 RDD 通过 调 
用 Cache 或 Persist 被 安放 在 内 存 中 的 RDD， 依 赖 于 函数 的 参数 ， 可 能 仅 存储 RDD 部 分 至 内 
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存 。 将 RDD 持久 化 于 内 存 ， 而 不 是 每 次 从 磁盘 读 写 ， 对 性 能 有 显著 的 提升 ， 但 由 于 可 用 内 
存量 一 般 小 于 处 理 的 数据 量 ，Spark 支持 持久 化 数据 到 内 存 的 不 同 配置 项 ， 例 如 允许 溢出 磁 
盘 。 在 第 一 部 分 的 内 存 池内 有 一 块 叫 Unroll 的 内 存 ， 这 块 内 存在 数据 从 序列 化 到 非 序列 化 转 
换 操作 中 使 用 。 

Executor 内 存 的 大 小 ， 和 性 能 本 身 并 没有 直接 关系 ,但 是 几乎 所 有 运行 时 性 能 相关 的 内 
容 都 或 多 或 少 间接 和 内 存 大 小 相关 。 这 个 参数 最 终 会 被 设置 到 Executor 的 JVM 的 Heap 尺寸 
上 ， 对 应 的 是 Xmx 和 Xms 的 值 。 

理论 上 ，Executor 内 存 当 然 是 多 多 益 善 ， 但 是 实际 受 机 器 配置 、 运 行 环境 、 资 源 共享 、 
JVM GC 效率 等 因素 的 影响 ， 还 是 有 可 能 需要 为 它 设置 一 个 合理 的 大 小 。 多 大 算 合理 ， 要 看 
实际 情况 。 

Executor 的 内 存 基本 上 是 由 Executor 内 部 的 所 有 任务 共享 的 ， 而 每 个 Executor 上 可 以 支 
持 的 任务 的 数量 取决 于 Executor 管理 的 CPU Core 资源 的 多 少 ， 因 此 需要 了 解 每 个 任务 的 数 
据 规模 的 大 小 ， 从 而 推算 出 每 个 Executor 大 致 需要 多 少 内 存 即 可 满足 基本 需求 。 

如 何 知 道 每 个 任务 所 需 内 存 的 大 小 呢 ? 这 个 很 难 进行 统一 的 衡量 ， 因 为 除了 数据 集 本 身 
的 开销 ， 还 包括 算法 所 需 各 种 临时 内 存 空间 的 使 用 ， 而 根据 具体 的 代码 算法 等 不 同 ， 临 时 内 
存 空 间 的 开销 也 不 同 。 但 是 ， 数 据 集 本 身 的 大 小 对 最 终 所 需 内 存 的 大 小 还 是 有 一 定 参考 意 
义 的 。 

通常 ， 每 个 分 区 的 数据 集 在 内 存 中 的 大 小 ， 可 能 是 其 在 磁盘 上 源 数据 大 小 的 若干 倍 〈 不 
考虑 源 数据 压缩 ，Java 对 象 相 对 于 原始 裸 数据 ， 也 要 算 上 用 于 管理 数据 的 数据 结构 的 额外 开 
销 ) ， 需 要 准确 地 知道 大 小 ， 可 以 将 RDD Cache 在 内 存 中 ， 从 BlockManager 的 Log 输出 可 
以 看 到 每 个 Cache 分 区 的 大 小 《其 实 也 是 估算 出 来 的 ， 并 不 完全 准确 ) 。 

例如 ，Cache 分 区 以 后 的 Log 输出 记录 : 

:1 BlockManagerInfo: Added RDD 0 1 on disk on sr438:41134 (size: 495.3 MB) 


反 过 来 说 ， 如 果 你 的 Executor 的 数量 和 内 存 大 小 受 机 器 物理 配置 影响 相对 固定 ， 那 么 你 
就 需要 合理 规划 每 个 分 区 任务 的 数据 规模 ， 例 如 采用 更 多 的 分 区 ， 用 增加 任务 数量 进而 需 
要 更 多 的 批 次 来 运算 所 有 任务 ) 的 方式 来 减 小 每 个 任务 所 需 处 理 的 数据 大 小 。 


22.1.2 ”实际 生产 环境 下 一 般 每 个 Executor 的 CPU 的 具体 配置 及 原因 


每 个 Executor 所 能 支持 的 Task 的 并 行 处 理 的 数量 取决 于 其 所 持 有 的 CPU Core 的 数量 。 

当 通 过 Spark-Shell 或 者 Spark-Submit 脚本 启动 Spark 时 ，CPU Core 数量 的 参数 设置 可 
以 在 命令 行进 行 配置 。 

例如 : 

--num-Executors 10 

10 是 集群 上 启动 的 Executor 的 数量 。 

--Executor-cores 2 

2 是 每 个 Executor 运行 的 核 数 ， 即 Executor 能 最 大 运行 的 并 行 Task( 任 务 ) 数 。Executor 
的 每 个 核 共 享 Executor 分 配 到 的 总 内 存 。 
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22.2 Spark 并 行 度 设 置 最 佳 实践 


本 节 讲 解 并 行 度 设置 的 原理 和 影响 因素 以 及 并 行 度 设置 最 佳 实践 。 





22.2.1 并行 度 设置 的 原理 和 影响 因素 


并 行 度 就 是 Spark 作业 中 ， 各 个 Stage 的 Task 数量 ， 也 就 代表 了 Spark 作业 在 各 个 阶段 
(Stage) 的 并 行 度 。 

如 果 不 调节 并 行 度 ， 导 致 并 行 度 过 低 ， 会 怎么 样 ? 

假设 现在 已 经 在 Spark-Submit 脚本 里 面 ， 给 我 们 的 Spark 作业 分 配 了 足够 多 的 资源 ， 例 
如 50 个 Executor， 每 个 Executor 有 10GB 内 存 ， 每 个 Executor 有 3 个 CPU core。 基 本 已 经 
达到 了 集群 或 者 YARN 队列 的 资源 上 限 。 

Task 没有 设置 ,或 者 设置 的 很 少 ,例如 就 设置 了 100 个 Task, 50 个 Executor, 每 个 Executor 
有 3 个 CPU core。 也 就 是 说 ，Application 的 任何 一 个 Stage 运行 的 时 候 ， 都 有 总 数 在 150 个 
CPU core 可 以 并 行 运行 。 但 是 现在 只 有 100 个 Task, 平均 分 配 一 下 ， 每 个 Executor 分 配 到 两 
个 Task, 那么 同时 运行 的 Task 只 有 100 个 ,每 个 Executor 只 会 并 行 运行 两 个 Task。 每 个 Executor 
剩 下 的 一 个 CPU core 就 浪费 掉 了 。 

合理 的 并 行 度 的 设置 ， 应 该 是 设置 得 足够 大 ， 大 到 可 以 完全 合理 地 利用 集群 资源 ;例如 
上 面 的 例子 中 ,集群 共有 150 个 CPU core, 可 以 并 行 运行 150 个 Task。 那 么 就 应 该 将 Application 
的 并 行 度 至 少 设置 成 150， 才 能 完全 有 效 地 利用 集群 资源 ， 让 150 个 Task 并 行 执行 ， 而 且 
Task 增加 到 150 个 以 后 ， 既 可 同时 并 行 运行 ,还 可 让 每 个 Task 要 处 理 的 数据 量变 少 ; 例如 ， 
总 共 150GB 的 数据 要 处 理 ， 如 果 是 100 个 Task， 每 个 Task 计算 1.5GB 的 数据 ;现在 增加 到 
150 个 Task， 可 以 并 行 运行 ， 而 且 每 个 Task 主要 处 理 1GB 的 数据 就 可 以 。 

通过 调整 参数 ， 可 以 提高 集群 并 行 度 ， 让 系统 同时 执行 的 任务 更 多 ， 那 么 ， 对 于 相同 的 
任务 ， 并 行 度 高 了 ， 可 以 减少 轮 询 次 数 。 举 例 说 明 : 如 果 一 个 Stage 有 100 个 Task， 并 行 度 
为 50， 那 么 执行 完 这 次 任务 ， 需 要 轮 询 两 次 才能 完成 ， 如 果 并 行 度 为 100， 那 么 轮 询 一 次 就 
可 以 了 。 





22.2.2 并行 度 设置 最 佳 实践 


Task 数量 至 少 设置 成 与 Spark Application 的 总 CPU core 数量 相同 (最 理想 情况 , 例如 总 
共 150 个 CPU core， 分配 了 150 个 Task， 一 起 运行 ， 差 不 多 同一 时 间 运 行 完毕 ) 。 

如 果 集 群 不 能 有 效 地 被 利用 ， 则 要 为 每 个 操作 都 设置 足够 高 的 并 行 度 。Spark 会 根据 每 
个 文件 的 大 小 自动 设置 运行 在 该 文件 Map 任务 的 个 数 ( 也 可 以 通过 SparkContext 的 配置 参数 
来 控制 ); 对 于 分 布 式 Reduce 任务 (如 groupByKey 或 者 reduceByKey)， 则 利用 最 大 RDD 
的 分 区 数 。 
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可 以 通过 第 二 个 参数 传 入 并 行 度 (阅读 文档 Spark.PairRDDFunctions) 或 者 通过 设置 系 
统 参数 Spark.default.parallelism 来 改变 默认 值 。 通 常 ， 在 集群 中 ， 建 议 为 每 个 CPU 核 (core) 
分 配 2 一 3 个 任务 。 

事实 上 ， 官 方 推荐 也 是 ， 把 Task 数量 设置 成 Spark Application 总 CPU core 数量 的 2 一 3 
倍 ， 例 如 ，150 个 CPU core， 基 本 要 设置 Task 数量 为 300 一 500。 

例如 : 


1. SparkConf conf = new SparkConf () 
2. conf.set("Spark.default.parallelism", "500") 
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本 章 主要 讲解 两 个 方面 。23.1 节 讲解 Spark 集群 中 Mapper 端 内 存 调 优 实战 ; 23.2 节 讲 解 
Spark 集群 中 Reducer 端 内 存 调 优 实战 。 


23.1 Spark 集群 中 Mapper 端 内 存 调 优 实战 


本 节 讲解 Spark 集群 中 Mapper 端 内 存 使 用 详解 以 及 内 存 性 能 调 优 实战 。 
23.1.1 内 存 使 用 详解 


Spark 集群 Shuffle 分 为 两 部 分 : Mapper 端 和 Reducer 端 。Spark 集群 中 的 Shuffle 非常 重 
要 , Shuffle 的 特殊 之 处 在 于 它 依 赖 于 所 有 的 数据 ,RDD 依赖 是 后 面 的 RDD 依赖 前 面 的 RDD， 
当 发 生 Shuffle RDD 的 时 候 ，Reducer 端的 RDD 的 每 个 Partition 依赖 于 父 RDD 的 所 有 的 
Partition， 不 是 固定 依赖 于 某 一 个 RDD 的 数据 ， 或 者 某 几 个 Partition 的 数据 ， 它 的 依赖 是 不 
确定 的 ， 因 此 是 依赖 于 所 有 的 数据 。 假 如 有 100 万 个 Partition， 用 户 不 会 知道 是 依赖 于 其 中 
的 50 万 个 Partition， 还 是 其 中 的 一 个 Partition， 这 个 时 候 从 所 有 Partition 的 角度 考虑 ， 就 产 
生 了 Shuffle 网 络 通信 。 

Spark 集群 中 Mapper 端 内 存 性 能 调 优 示 意图 如 图 23-1 所 示 。 





Mapper 端 : 通过 Cache 不 断 地 把 
数据 写 入 本 地 文件 系统 中 ， 并 且 
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. R Shufne 的 方式 : 
i part12 ee part31 part32 哈 希 、 排 序 、 钨 丝 计划 3 种 方式 
Reducer 端 : 把 相同 的 Key 放 在 同 
Task1: 把 相同 Key Task2: 把 相同 Key 个 Task 中 ， 并 进行 业务 逻辑 的 操 

的 数据 拉 取 过 来 的 数据 拉 取 过 来 作 
后 进行 后 进行 
图 23-1 Spark 集群 中 Mapper 端 内 存 性 能 调 优 示意 图 
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假设 Mapper 端 有 3 个 Task: Task1、Task2、Task3, Reducer 端 有 两 个 Task: Taskl、Task2， 
数据 传输 到 Reducer 端的 时 候 首 先进 行 Mapper 端的 处 理 ，Mapper 端的 处 理 很 简单 ，Mapper 
端 有 一 个 缓存 , Mapper 端 会 产生 文件 , 这 里 将 文件 分 成 两 部 分 , 分 别 为 partl1、part12; part21、 
part22; part31、part32; Shuffle 可 以 是 哈 希 、 排 序 、 钨 丝 计划 3 种 方式 之 一 〈 其 中 ， 哈 希 方 
式 在 Spark 2.2.0 中 已 不 使 用 ) 。 数 据 从 Mapper 缓存 层 写 入 文件 中 。 Mapp 缓存 层 根据 Reducer 
端的 需要 , 将 数据 分 成 不 同 的 部 分 , part11、part12 可 能 在 一 个 文件 中 , 也 可 能 在 两 个 文件 中 。 
然后 在 Reducer 端 抓 取 属于 自己 的 数据 进行 reduce 操作 ，Reducer 端 操作 的 时 候 也 有 一 个 组 
存 层 ， 是 定义 业务 逻辑 运行 的 地 方 。 

Mapper 端 : 通过 缓存 层 不 断 地 把 数据 写 入 到 文件 系统 中 ， 并 汇报 给 Driver，Driver 须知 
道 把 数据 写 在 什么 地 方 。 

Reducer 端 : 把 相同 的 Key 放 在 同一 个 Task 中 ， 并 进行 业务 逻辑 的 操作 。Reducer 端 抓 
取 数 据 的 时 候 也 有 一 个 小 的 缓存 层 。 

针对 Shuffle Mapper 端的 过 程 , Shuffle Mapper 端 怎么 进行 性 能 调 优 ? 性 能 调 优点 在 什么 
地 方 ? Mapper 端 内 存 性 能 调 优点 在 于 缓存 层 : 假设 Mapper 端的 数据 非常 大 ,有 100 万 个 Key， 
Mapper 端的 缓存 层 大 小 是 16KB， 每 个 Task 的 数据 是 16GB， 这 时 进行 磁盘 读 写 的 次 数 会 是 
一 个 非常 大 的 数字 。 

Reducer 端 将 数据 抓 取 过 来 ， 如 果 缓 存 空 间 不 够 数据 将 溢出 到 磁盘 上 。Reducer 端 也 有 

-个 缓存 层 ， 也 需要 在 Reducer 端 进行 缓存 层 的 调 优 。 


23.1.2 ”内 存 性 能 调 优 实战 


Spark 集群 中 Mapper 端 内 存 性 能 调 优 示意 图 如 图 23-1 所 示 , 那么 , 用户 怎 么 判断 Mapper 
端 要 不 要 调 优 ?什么 时 候 进行 Mapper 端 调 优 呢 ? 

这 个 要 看 log 和 Web UI 上 面 的 信息 来 判断 。log 信息 可 以 给 出 重要 参考 ， 从 Web UI 的 
角度 讲 ， 可 以 看 不 同 的 Stage 分 布 在 什么 地 方 ， 读 写 数据 的 量 等 内 容 。 

Mapper 端的 缓存 层 : 如 果 说 缓存 层 的 大 小 设置 不 恰当 ,会 频繁 地 往 本 地 磁盘 写 数据 ,会 
产生 极 大 数量 的 磁盘 访问 操作 。 

针对 Spark 集群 中 Mapper 端 内 存 性 能 问题 : Mapper 端的 性 能 调 优 参数 spark.shuffle .file. 
buffer 的 默认 大 小 是 32KB， 用 户 要 根据 数量 和 并 发 量 来 适当 调整 该 参数 ， 尽量 避免 频繁 地 磁 
盘 访问 操作 ， 可 以 通过 观察 效果 来 尝试 ， 例 如 开始 是 32KB， 然 后 调整 为 64KB、128KB 等 。 


23.2 Spark 集群 中 Reducer 端 内 存 调 优 实战 
本 节 讲 解 Spark 集群 中 Reducer 端 内 存 使 用 详解 以 及 内 存 性 能 调 优 实战 。 


23.2.1 内 存 使 用 详解 


进行 Shuffle 时 ，Mapper 端 有 一 些 文件 按照 某 种 规则 给 Reducer 端 ， 在 整个 Shuffle 的 过 
程 中 ，Mapper 端 有 很 多 任务 ，Reducer 端 也 有 很 多 任务 ，Shuffle 有 很 多 不 同 的 类 型 ， 不 同类 
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型 的 核心 区 别 在 于 Mapper 端的 数据 怎么 交 给 Reducer 端 。 
Spark 集群 中 Reducer 端 内 存 性 能 调 优 示意 图 如 图 23-2 所 示 。 
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图 23-2 Spark 集群 中 Reducer 端 内 存 性 能 调 优 示 意图 


假设 在 Mapper 端 有 3 个 Task: Task1、Task2、Task3; 在 Reducer 端 有 两 个 任务 : Task1、 
Task2 。 

从 Reducer 端的 角度 考虑 ， 每 个 Task 生成 几 个 部 分 的 文件 ， 因 为 在 Shuffle 的 时 候 有 不 
同 的 Shuffle 策略 : 哈 希 方式 、 排 序 方式 等 。 

在 Mapper 端 和 Reducer 端 中 间 加 一 个 缓存 层 , Reducer 端的 Task 有 两 个 , 所 以 文件 会 分 
为 两 个 小 的 文件 : flepartl 、filepart2。 这 里 不 是 指 第 一 个 文件 、 第 二 个 文件 ， 而 是 文件 的 第 
一 部 分 、 第 二 部 分 。Mapper 端 Task 的 数据 也 有 两 部 分 ， 不 同 的 Shuffle 策略 会 说 明 怎 么 划分 

缓存 层 分 别 从 不 同 Task 的 filepartl 、filepart2 抓 取 属于 自己 的 数据 ， 然 后 把 数据 放 到 组 
存 层 中 ， 再 从 缓存 层 中 把 数据 抓 取 到 Reducer 端 ， 在 Reducer 端 里 面 对 RDD 进行 一 系列 业务 
逻辑 的 处 理 。 

具体 流程 如 下 : 整个 Spark 的 每 个 Job 分 成 Mapper 端 和 Reducer 端 ，Mapper 端 产生 的 
数据 会 分 成 若干 个 部 分 ， 具 体 分 成 几 部 分 由 Reducer 端的 并 行 度 决定 。 例 如 ， 排 序 的 方式 就 
在 一 个 文件 中 ， 而 哈 希 的 方式 则 进行 了 文件 压缩 。Reducer 端 获 取 具 体 数 据 的 时 候 ，Reducer 
端的 前 端 有 一 个 缓存 ， 持 续 从 Mapper 端的 Task 输出 中 去 抓 取 属 于 自己 的 数据 ，Reducer 端 
通过 transformation 业务 逻辑 代码 对 抓 到 的 数据 进行 处 理 。 

从 上 面 整 个 过 程 来 看 ，Spark 集群 中 Reducer 端 在 如 下 环节 可 能 出 问题 。 

第 一 个 是 Reducer 端的 缓存 层 : Mapper 端 不 断 地 输出 数据 ， 根 据 不 同 的 作业 以 及 作业 不 
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同 的 阶段 ， 数 据 可 能 很 多 ， 也 可 能 很 少 ; Reducer 端 要 运行 Task， 是 否 要 等 到 Mapper 端 将 所 
有 的 数据 都 写 到 磁盘 中 之 后 , Reducer 端 才 从 Mapper 端 抓 取 数 据 ? 不 是 。 这 里 是 一 边 Shuffle， 
一 边 处 理 ， 在 进行 Shuffle 的 过 程 中 ， 抓 取 数据 中 间 有 一 个 缓存 层 ， 类 似 Java NIO 方式 读 写 
文件 : 创建 一 个 缓存 区 (ByteBuffer) ， 从 通道 将 数据 读 入 缓冲 区 ， 读 取 文 件数 据 ; 创建 一 个 
缓存 区 ， 通 过 从 缓冲 区 写 入 到 通道 中 ， 写 入 文件 数据 。 所 以 ， 缓 存 层 不 是 等 Mapper 端 把 所 
有 的 数据 都 放 到 filepartl、filepart2 才 处 理 ， 而 是 数据 存 入 一 点 就 读 取 一 点 ， 然 后 Reducer 端 
的 Task 的 代码 进行 业务 处 理 。 

一 边 读 取 数 据 ， 一 边 处 理 ， 那 Reducer 端 最 多 能 提取 多 少数 据 、 由 谁 来 决定 呢 ? 这 是 由 
缓存 层 决定 的 。Reducer 端的 代码 基于 缓存 层 处 理 数 据 ， 默 认 配 置 是 为 每 个 Task 配置 483MB 
的 缓存 , 那 实 际 环境 中 缓存 层 的 大 小 一 般 多 大 合适 ? (这 里 缓存 层 的 大 小 是 指 每 个 Task 的 组 
存 层 的 大 小 ， 设 置 参数 为 Spark.reducer.maxSizeInFlight) ， 将 此 参数 设置 为 96MB、48MB， 
或 者 更 大 ? 还 是 将 其 设置 为 24MB 或 者 更 小 ? 

第 二 个 是 Reducer 端的 堆 大 小 : 从 Mapper 端 抓 取 的 数据 先 放 到 缓存 层 ， 然 后 才 用 Task 
执行 抓 取 到 的 数据 ，Reducer 端 执行 级 别 默认 情况 下 的 Task 堆 的 大 小 是 20% 的 空间 ， 可 以 进 
行 调整 。 

如 果 Reducer 端的 缓存 层 的 数据 特别 多 ,会 不 会 有 问题 ?一 般 情况 下 ，Mapper 端的 数据 
不 是 特别 多 ， 远 远 达 不 到 配置 的 限额 ， 这 种 情况 下 不 会 出 问题 。 但 如 果 Mapper 端的 数据 特 
别 多 ，Reducer 端 抓 取 数据 到 自己 的 缓存 层 的 时 候 ， 每 次 缓存 层 都 填 满 ， 这 种 情况 下 再 加 上 
Reducer 端 Task 运行 时 分 配 的 对 象 等 ， 就 可 能 导致 大 量 的 对 象 创建 ，Reducer 端 就 可 能 发 生 
OOM。 

在 企业 生产 环境 中 通常 会 遇 到 这 个 问题 ， 在 这 种 情况 下 该 怎么 办 呢 ? 可 能 有 人 提出 增加 
Executor 或 者 增加 内 存 ， 但 在 实际 生产 环境 中 ， 资 源 被 严格 限制 ， 所 以 先 从 技能 的 层面 ， 在 
不 改变 资源 的 情况 下 ， 考 虑 如 何 去 处 理 。 这 时 比较 简单 的 方式 就 是 将 Reducer 端的 缓存 层 减 
少 。 例如， 原先 缓存 层 在 48MB 时 发 生 了 OOM， 将 参数 调整 成 24MB 就 行 了 。 这 是 最 简单 、 
最 直接 的 解决 方案 。 先 让 程序 运行 起 来 ， 然 后 才 考 虑 让 程序 跑 得 更 快 。 这 个 想法 与 平时 单机 
版 本 的 想法 完全 一 样 ， 如 果 单 机 版 本 发 生 了 OOM， 是 调 大 缓存 大 小 ， 还 是 调 小 缓存 大 小 ? 
确实 要 调 小 缓存 大 小 。 


23.2.2 内存 性 能 调 优 实战 

















问题 1: Reducer 端的 业务 逻辑 (Business Logic) 运行 的 空间 分 配 不 够 ， 业务 逻辑 运行 的 
时 候 被 迫 把 数据 溢出 到 磁盘 上 面 ， 一 方面 造成 了 业务 逻辑 处 理 的 时 候 需 要 读 写 磁 盘 ， 另 一 方 
面 也 会 导致 不 安全 (数据 读 写 故 障 ) 。 

针对 问题 1 的 调 优 办 法 : Reducer 端的 性 能 调 优 参数 spark.shuffle memoryFraction 默认 大 
小 是 0.2，Reducer 端的 业务 逻辑 运行 占用 Executor 的 内 存 大 小 的 20%， 很 多 公司 的 Executor 
中 线程 的 并 行 度 在 5 个 左右 ， 调 整 的 时 候 可 以 从 0.2 调 到 0.3、0.4 等 。 调 整 得 越 大 ，Spil 到 
磁盘 的 次 数 就 越 少 ， 次 数 越 少 ， 从 磁盘 中 读 取 文件 的 时 候 数 量 也 会 越 小 。 

问题 2: 发 生 Reducer 端的 OOM, Reducer 端 如 果 出 现 OOM, 一 般 由 于 内 存 中 数据 太 多 ， 
无 法 容纳 活跃 的 对 象 。 

针对 问题 2 的 调 优 办 法 : 调 小 Reducer 端的 缓存 层 。 因 为 分 配 的 内 存 有 限 ， 如 果 占 用 了 
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太 多 的 缓存 ， 将 导致 太 多 的 对 象 数 据 产生 ， 会 产生 OOM， 将 缓存 层 减少 ，OOM 的 症状 就 很 
可 能 消失 。 这 个 办 法 也 有 代价 ， 那 就 是 缓存 层 变 小 了 ， 向 Mapper 层 提取 数据 的 次 数 就 变 多 
了 ，Shuffle 的 次 数 变 得 更 多 了 ， 性 能 也 就 降低 了 。 这 样 修改 的 目的 是 让 程序 先 运行 起 来 ， 然 
后 再 慢 慢 调 ， 如 增加 Executor， 分 配 更 多 的 内 存 ， 然 后 可 以 再 调 大 缓存 。 

如 果 内 存 足 够 大 ， 可 以 增加 缓存 的 大 小 ， 例 如 ， 从 48MB 提升 到 96MB， 这 样 可 以 减少 
网 络 传 输 的 次 数 ， 从 而 提高 性 能 ， 配 置 参 数 是 spark .reducer.maxSizeInFlight。 

问题 3: shuffle file not found 的 问题 .原因 有 可 能 是 GC, 无 论 是 Minor GC, 还 是 final GC， 
只 要 有 GC， 就 有 可 能 在 Mapper 端 GC 的 时 候 无 法 把 数据 抓 取 过 来 。 

针对 问题 3 的 调 优 方法 : 一 般 情 况 下 ， 当 Executor 进行 GC 的 时 候 ， 所 有 的 线程 都 停止 
工作 ， 包 括 进行 数据 传输 的 Netty 中 的 线程 ， 所 以 就 暂时 无 法 获取 数据 。 

当 Reducer 端 根据 Driver 端 提供 的 信息 到 Mapper 中 指定 的 位 置 去 获取 数据 时 ， 首 先 会 
去 定位 数据 所 在 的 文件 ， 此 时 可 能 发 生 shuffle file not found 的 错误 。 这 个 错误 的 出 现 一 般 是 
由 于 Mapper 端正 在 进行 GC， 对 数据 请 求 没有 响应 ， 默 认 情 况 

spark.shuffle.io.maxRetries =3 

spark.shuffle.io.retryWait=5s 

所 以 15s 还 没有 抓 取 到 数据 就 会 出 现 shuffle file not found 的 错误 。 解 决 办 法 是 调 大 上 述 
参数 ， 例 如 : 

spark.shuffle.io.maxRetries =30 

spark.shuffle.io.retryWait =30s 
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第 24 章 使 用 Broadcast 实现 Mapper 端 
Shuffle 聚合 功能 的 原理 和 调 优 实战 


本 章 讲解 使 用 Broadcast 实现 Mapper 端 Shuffle 聚合 功能 的 原理 和 调 优 实战 。 
24.1 使 用 Broadcast 实现 Mapper 端 Shuffle 聚合 功能 的 原理 


Shuffle 分 为 两 部 分 : 一 个 是 Mapper 端的 Shuffle; 另外 一 个 是 Reducer 端的 Shuffle。 性 
能 调 优 有 一 个 很 重要 的 总 结 就 是 ， 尽 量 不 使 用 Shuffle 类 的 算 子 ， 因 为 一 般 进 行 Shuffle 的 时 
候 ， 它 会 把 集群 中 多 个 节点 上 的 同一 个 Key 汇聚 在 同一 个 节点 上 ， 如 reduceByKey。 然 后 会 
优先 把 结果 数据 放 在 内 存 中 , 但 如 果 内 存 不 够 , 就 会 放 到 磁盘 上 。Shuffle 在 进行 数据 抓 取 前 ， 
为 了 整个 集群 的 稳定 性 ， 它 的 Mapper 端 会 把 数据 写 到 本 地 文件 系统 。 这 可 能 导致 大 量 磁盘 
文件 的 操作 。 

在 大 数据 处 理 场景 中 , 多 表 Join 是 非常 常见 的 一 类 运算 。 为 了 便于 求解 , 通常 将 多 表 Join 
问题 转 为 多 个 两 表 连 接 问题 。 

普通 的 Join 是 会 走 Shuffle 过 程 的 ， 而 一 旦 Shuffle， 就 相当 于 会 将 相同 Key 的 数据 拉 取 
到 一 个 Shuffle read Task 中 再 进行 Joain， 此 时 就 是 reduce Join。 但是， 如 果 一 个 RDD 比较 小 ， 
则 可 以 采用 广播 变量 方式 ， 将 较 小 RDD 的 数据 进行 全 量 广播 ， 青 利用 map 算 子 操作 来 实现 
与 Join 同样 的 效果 , 也 就 是 map Join, 此 时 就 不 会 发 生 Shuffle 操作 , 也 就 不 会 发 生 数据 倾斜 。 


24.2 使 用 Broadcast 实现 Mapper 端 Shuffle 聚合 功能 调 优 实战 


使 用 Broadcast 实现 Mapper 端 Shuffle 聚合 调 优 实战 。 本 节 使 用 电影 点 评 系统 中 最 受 不 
同年 龄 段 人 员 欢 迎 的 电影 TopN 的 功能 来 讲解 。 
电影 点 评 系统 的 Movie_Users_Analyzer_DateFrame.scala 业务 代码 如 下 。 


1. 功能 五 : 最 受 不 同年 龄 段 人 员 欢迎 的 电影 TopN 





NA 
3 val targetQQUsers = usersRDD.map( .split("::")).map(x => (x(0), 
x{2))) Filter( -2.equals'("18")) 
加 val targetTaobaoUsers = usersRDD.map( .split("::")).map(x=> (x(0), 
x(2))) .filter( . 2.equals ("25")) 
汪 况 
6 /** 
和 全 * 在 Spark 中 如 何 实现 map Join 呢 ， 显 然 是 要 借助 于 Broadcast， 把 数据 广播 到 
*# Executor 级 别 ， 让 该 Executor 上 的 所 有 任务 共享 
8 * 该 唯一 的 数据 ， 而 不 是 每 次 运行 Task 的 时 候 都 要 发 送 一 份 数 据 的 复制 ， 这 显著 地 降低 


* 了 网 络 数据 的 传输 和 JVM 内 存 的 消耗 


下 篇 ”性 能 调 优 








Eu 
val targetQQUsersSet = HashSet () ++ targetQQUsers.map( . 1) .collect() 
val targetTaobaoUsersSet = HashSet () ++ targetTaobaoUsers.map( . 1). 
collect () 


val targetQQUsersBroadcast = sc.broadcast (targetQQUsersSet) 
val targetTaobaoUsersBroadcast = sc.broadcast (targetTaobaoUsersSet) 


/** 
* QQ 或 者 微 信 核 心目 标 用 户 最 喜爱 电影 TopN 分 析 
* (Silence of the Lambs, The (1991),524) 
* (Pulp Fiction (1994),513) 
* (Forrest Gump (1994),508) 
* (Jurassic Park (1993),465) 
* (Shawshank Redemption, The (1994) ,437) 
*/ 
val movieID2Name = moviesRDD.map(_ .split("::")).map(x => (x(0), 


x(1))) .collect .toMap 

println ("纯粹 通过 RDD 的 方式 实现 所 有 电影 中 QQ 或 者 微 信 核心 目标 用 户 最 喜爱 电影 

TopN 分 析 :") 

ratingsRDD.map( .split("::")) .map(x => (x(0), x(1))).filter(x => 
targetQQUsersBroadcast .value.contains (x. 1) 

).map(x => (x. 2, 1)) .reduceByKey( + ).map(x => (x. 2, x. 1)). 
sortByKey (false) .map (x => (x. 2, x. 1)).take(10). 
map (x => (movieID2Name.getOrElse(x. 1, null), x. 2) ) .foreach (Println) 


电影 点 评 系统 借助 于 Broadcast， 把 不 同年 龄 的 用 户 数据 广播 到 Executor， 让 Executor 上 
的 所 有 任务 共享 该 唯一 的 数据 ， 在 业务 代码 中 没有 Join 操作 ， 也 就 避免 了 Shuffle 操作 。 
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第 25 章 使 用 Accumulator 高 效 地 实现 分 
布 式 集群 全 局 计数 器 的 原理 和 调 优 案 例 


本 章 讲解 如 何 使 用 Accumulator 高 效 地 实现 分 布 式 集群 全 局 计数 器 的 原理 和 调 优 案例 。 
25.1 Accumulator 内 部 工作 原理 


累加 器 是 仅仅 被 相关 操作 累加 的 全 局 共享 变量 ， 因 此 可 以 在 并 行 计算 中 有 效 使 用 ， 从 
Worker 节点 聚合 数值 回 Driver。 它 可 以 用 来 实现 计数 器 的 总 和 。Spark 原生 地 只 支持 数字 类 
型 的 累加 器 ， 用 户 可 以 添加 新 类 型 的 支持 。 如 果 创建 累加 器 时 指定 了 名 字 ， 可 以 在 Spark 的 
UI 界 面 看 到 。 这 有 利于 理解 每 个 执行 阶段 的 进程 。 

累加 器 通过 对 一 个 初始 化 的 变量 v 调用 SparkContext.accumulator(v) 来 创建 。 在 集群 上 运 
行 的 任务 可 以 通过 add 或 者 "+=" 方 法 在 累加 器 上 进行 累加 操作 。 但是, 它们 不 能 读 取 它 的 值 。 
只 有 驱动 程序 通过 累加 器 的 value 方法 能 够 读 取 它 的 值 。 

下 面 是 Spark-Shell 下 累加 器 的 使 用 例子 。 


scala> val accum = sc.accumulator (0) 
accum: Spark.Accumulator[Int] = 0 


scala> accum.value 


1 
沁 
3 
4. scala> sc.parallelizel(Array(l, 2, 3, 4)) .foreach(x => accum += x) 
5 
6 
沈 res2: Int = 10 


25.2 ”Accumulator 自 定义 实现 原理 和 源码 解析 


Accumulator 是 分 布 式 全 局 只 写 的 数据 结构 。 在 生产 环境 下 , 一 定 要 自 定义 Accumulator。 


自 定义 时 可 以 让 Accumulator 非常 复杂 ， 基 本 上 可 以 是 任意 类 型 的 Java 和 Scala 对 象 ， 自 定 
义 Accumulator 时 ， 可 以 实现 一 些 “ 技 术 福利 ”， 如 在 Accumulator 变化 的 时 候 可 以 把 数据 同 
步 到 MySQL 中 。 


下 面 来 看 一 下 源码 。 


1 @deprecated ("use AccumulatorV2", "2.0.0") 

及 class Accumulator [T] private[spark] ( 

3 //SI-8813: 必须 显 式 定义 一 个 私有 变量 ， 否 则 Scala 2.11 不 进行 编译 
二 @transient private val initialValue: T, 

号 param: AccumulatorParam[T], 

6 name: Option[String] = None, 

Gk countFailedValues: Boolean = false) 
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8. extends Accumulable [T, T] (initialValue, param, name, countFailedValues) 
和 


被 累加 的 值 的 类 型 是 泛 型 ， 可 以 对 值 的 类 型 进行 自 定义 。 
25.3 ”Accumulator 作 全 局 计数 器 案例 实战 


开发 人 员 也 可 以 通过 继承 AccumulatorParam 类 创建 它们 自己 的 累加 器 类 型 。 


AccumulatorParam 接口 有 两 个 方法 。 


(1) zero 方法 为 类 型 提供 一 个 0 值 。 
(2) addImPlace 方法 将 两 个 值 相 加 。 
假设 有 一 个 代表 数学 vector 的 Vector 类 ， 累 加 器 实现 如 下 。 
object VectorRAccumulatorParam extends AccumulatorParam[Vector] { 


def zero (initialValue: Vector): Vector = { 
. Vector .zeros (initialValue.size) 


sl 
训 
El 
4. 
5. def addInPlace(vl: Vector, v2: Vector): Vector = { 
6 V1 += v2 

Wl } 

8 


0 
10. // 然 后 创建 一 个 此 类 型 的 累加 器 Accumulator 


11. val vecAccum = sc.accumulator (new Vector(...)) (VectorAccumulatorParam) 


在 Scala 里 ，Spark 提供 更 通用 的 累加 接口 来 累加 数据 ， 尽管 结 果 的 类 型 和 累加 的 数据 类 


型 可 能 不 一 致 ( 例 如 ， 通 过 收集 在 一 起 的 元 素来 创建 一 个 列表 ) 。 同 时 ， 使 用 
SparkContext..accumulableCollection 方法 来 累加 通用 的 Scala 的 集合 类 型 。 


和 一 
器 的 


累加 器 仅仅 在 动作 操作 内 部 被 更 新 ，Spark 保证 每 个 任务 在 累加 器 上 的 更 新 操作 只 被 执 
次 ， 也 就 是 说 ， 重 启 任务 也 不 会 更 新 。 在 转换 操作 中 ， 用 户 必 须 意识 到 每 个 任务 对 累加 
更 新 操作 可 能 不 只 一 次 执行 ， 例 如 重新 执行 了 任务 和 作业 的 阶段 。 

累加 器 并 没有 改变 Spark 的 惰性 求 值 模型 。 如果 它们 被 RDD 上 的 操作 更 新 , 它们 的 值 只 
RDD 因为 动作 操作 被 计算 时 ， 才 被 更 新 。 因 此 ， 当 执行 一 个 惰性 的 转换 操作 ， 如 map 


时 ， 不 能 保证 对 累加 器 值 的 更 新 被 实际 执行 了 。 下 面 的 代码 片段 演示 了 此 特性 。 


5 val accum = sc.accumulator (0) 


2. data.map { x => accum += x; f(x) } 


这 里 ，accum 的 值 仍然 是 0， 因 为 没有 Action 动作 操作 引起 map 实际 的 计算 。 
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第 26 章 Spark 下 JVM 性 能 调 优 最 佳 实践 


本 章 讲解 Spark 下 JVM 性 能 调 优 最 佳 实践 . 26.1 节 讲 解 JVM 内 存 架 构 详解 及 调 优 ; 26.2 
节 讲 解 Spark 中 对 JVM 使 用 的 内 存 原理 图 详解 及 调 优 ;26.3 节 讲 解 Spark 下 JVM 的 On-Heap 
和 Off-Heap 解密 ; 26.4 节 讲 解 Spark 下 的 JVM GC 导致 的 Shuffle 拉 取 文件 失败 及 调 优 方案 ; 
26.5 节 中 讲解 Spark 下 的 Executor 对 JVM 堆 外 内 存 连接 等 待 时 长 调 优 ，26.6 节 讲 解 Spark 
下 的 JVM 内 存 降低 Cache 内 存 占 比 的 调 优 。 


26.1 JVM 内 存 架 构 详解 及 调 优 


本 节 讲 解 JVM 内 存 架 构 详解 及 调 优 ， 内 容 包括 : JVM 的 堆 区 、 栈 区 、 方 法 区 等 详解 ; 
JVM 线程 引擎 及 内 存 共享 区 域 详解 ，JVM 中 年 轻 代 和 老年 代 及 元 空间 原理 详解 ，JVM 进行 





26.1.1 JVM 的 堆 区 、 栈 区 、 方 法 区 等 详解 


JVM 主要 由 类 加 载 器 子 系统 、 运 行 时 数据 区 〈 内 存 空间 ) 、 执 行 引擎 以 及 与 本 地 接口 等 
组 成 。 其 中 ， 运 行 时 数据 区 又 由 方法 区 、 堆 、Java 栈 、PC 寄存 器 、 本 地 方法 栈 组 成 ， 如 图 


26-1 所 示 。 
CLASS "中 


| 
NATIVE 
mp rs >, snrs 


辆 所 有 线程 共享 的 运行 时 数据 区 域 
吕 特定 于 线程 的 运行 时 数据 区 域 












图 26-1 JVM 内 存 示意 图 


每 个 JVM 中 的 方法 区 和 堆 区 被 JVM 中 的 线程 共享 。 当 JVM 加 载 了 一 个 class 文件 后 ， 
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则 class 中 的 参数 、 类 型 等 信息 会 存储 在 方法 区 中 ,程序 运行 时 所 有 创建 的 对 和 象 都 存储 在 堆 中 。 
当 每 个 新 线程 启动 时 ， 会 有 自己 的 程序 计数 器 和 栈 ， 如 果 线程 调用 方法 ， 则 程序 计数 器 
表明 下 一 条 执行 的 指令 。 线 程 栈 存储 线程 的 方法 调用 状态 〈 包 括 局 部 变量 、 被 调用 的 参数 、 
返回 值 、 中 间 结 果 ) 。 本 地 方法 调用 存储 在 独立 的 本 地 方法 栈 中 ,或 其 他 独立 的 内 存 区 域 中 。 

栈 区 是 由 栈 桢 组 成 ， 每 个 栈 桢 就 是 每 个 调用 的 方法 的 栈 。 当 方法 调用 结束 时 ，JVM 会 弹 
栈 ， 即 抛弃 此 方法 的 栈 桢 。 


1. 堆 区 


(1) 堆 区 存储 的 全 部 是 对 象 ， 每 个 对 象 都 包含 一 个 与 之 对 应 的 class 的 信息 (class 的 目 
的 是 得 到 操作 指令 ) 。 

(2) JVM 只 有 扒 区 和 方法 区 被 所 有 线程 共享 ， 堆 中 不 存放 基本 类 型 和 对 象 引 用 ， 只 存放 
对 象 本 身 。 

(3) 一 般 由 程序 员 分 配 释放 ， 若 程序 员 不 释放 ， 程 序 结束 时 可 能 由 OS 回收 。 


2. 栈 区 


(1) 每 个 线程 包含 一 个 栈 区 ， 栈 中 只 保存 基础 数据 类 型 的 对 象 和 自 定义 对 象 的 引用 不 
是 对 象 ) ， 对 象 都 存放 在 堆 区 中 。 

(2) 每 个 栈 中 的 数据 (原始 类 型 和 对 象 引用 〉 都 是 私有 的 ， 其 他 栈 不 能 访问 。 

(3) 栈 分 为 3 个 部 分 : 基本 类 型 变量 区 、 执行 环境 上 下 文 、 操 作 指令 区 (存放 操作 指令 ) 。 

(4) 由 编译 器 自动 分 配 释放 ， 存 放 函 数 的 参数 值 、 局 部 变量 的 值 等 。 


3. 静态 区 /方法 区 
(1) 方法 区 又 称 静 态 区 , 与 堆 一 样 , 被 所 有 的 线程 共享 。 方 法 区 包含 所 有 的 class 和 static 
(2) 方法 区 中 包含 的 都 是 在 整个 程序 中 永远 唯一 的 元 素 ， 如 class、static 变量 。 


(3) 全 局 变量 和 静态 变量 的 存储 是 放 在 一 块 的 ， 初 始 化 的 全 局 变量 和 静态 变量 在 一 块 区 
域 ， 未 初始 化 的 全 局 变量 和 未 初始 化 的 静态 变量 在 相 邻 的 另 一 块 区 域 。 


26.1.2 JVM 线程 引 警 及 内 存 共享 区 域 详解 











多 线程 的 Java 应 用 程序 : 为 了 让 每 个 线程 正常 工作 , 提出 了 程序 计数 器 (Program Counter 
Register) ， 每 个 线程 都 有 自己 的 程序 计数 器 ， 这 样 ， 当 线程 执行 切换 的 时 候 ， 就 可 以 在 上 次 
执行 的 基础 上 继续 执行 ， 仅 仅 从 一 条 线程 线性 执行 的 角度 而 言 ， 代 码 是 一 条 一 条 地 往 下 执行 
的 ， 这 时 就 是 程序 计数 器 ， JVM 就 是 通过 读 取 程 序 计 数 器 的 值 来 决定 该 线程 下 一 条 需要 执行 
的 字 节 码 指令 ， 进 而 进行 选择 语句 、 循 环 、 异 常 处 理 等 。 

JVM 线程 引擎 及 内 存 共享 区 域 示 意图 如 图 26-2 所 示 , 对 于 每 个 线程 , 从 OOP 角度 而 言 ， 
相当 于 一 个 对 象 ， 该 对 象 中 具有 执行 代码 ， 同 时 也 有 要 处 理 的 数据 ， 数 据 包含 Thread 工作 时 
要 访问 的 数据 ， 同 时 也 包含 现在 的 Stack，Stack 中 包含 了 Thread 本 地 的 数据 ， 也 包含 了 复制 
的 全 局 数据 ;从 面向 过 程 的 角度 而 言 : 线程 = 代码 + 数据 。 
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Main Memory :全 局 共享 内 存 空 间 























图 26-2 JVM 线程 引擎 及 内 存 共 享 区 域 示意 图 


线程 的 执行 ， 与 全 局 内 存 共享 区 域 交 互 的 时 候 ， 涉 及 从 全 局 内 存 共享 区 域 复制 数据 到 线 
程 的 工作 内 存 中 。 复制 过 去 后 , 交 给 线程 的 操作 代码 去 处 理 数据 。 不 是 直接 操作 全 局 的 数据 ， 
这 是 JVM 实现 的 基本 机 制 ， 防 止 发 生 状 态 不 一 致 ， 所 以 实现 复制 机 制 。 

程序 计数 器 : 如 图 26-2 所 示 ， 有 5 条 线程 ， 在 工作 的 时 候 ， 线 程 工作 的 背后 是 core， 涉 
及 core 在 线程 之 间 的 切换 ， 线 程 的 正常 工作 是 指令 一 条 条 执行 和 状态 的 保持 。 为 了 让 线程 正 
常 工作 ， 提 出 了 程序 计数 器 。 

字 节 码 解释 器 是 在 程序 计数 器 的 基础 上 工作 的 ， 通 过 读 取 程序 计数 器 的 值 决定 该 线程 下 
一 条 需要 执行 的 字 节 码 指令 ， 进 而 进行 选择 语句 、 循 环 、 异 常 处 理 等 。 

ThreadLocal， 线 程 本 地 存储 ， 数 据 属于 线程 私有 ， 不 同 于 私有 成 员 ， 其 他 线程 是 不 能 访 
问 的 。 在 各 大 框架 中 ， 都 会 有 ThreadLocal 的 身影 。 





26.1.3 JVM 中 年 轻 代 和 老年 代 及 元 空间 原理 详解 


JVM7 的 虚拟 机 中 的 内 存 共 划分 为 3 个 代 : 年 轻 代 (Young Generation) 、 老 年 代 (Old 
Generation) 和 持久 代 “(Permanent Generation) 。 其 中 ， 持 久 代 主要 存放 的 是 Java 类 的 类 信 
息 ,与 垃圾 收集 要 收集 的 Java 对 象 关系 不 大 。 年轻 代 和 老年 代 对 垃圾 收集 影响 比较 大 ， 如 图 
26-3 所 示 。 


Hotspot Heap Structure 


Survivor Space 








年 轻 代 老年 代 持久 代 
图 26-3 JVM 内 存 年 轻 代 、 老 年 代 、 持 久 代 的 划分 
1. 年 轻 代 
所 有 新 生成 的 对 象 首先 都 放 在 年 轻 代 。 年 轻 代 的 目标 就 是 尽 可 能 快速 地 收集 掉 那 些 生命 
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周期 短 的 对 象 。 年 轻 代 分 3 个 区 : 一 个 Eden 区 ， 两 个 Survivor 区 一般 而 言 )》。 大 部 分 对 
象 在 Eden 区 中 生成 。 当 Eden 区 满 时 , 还 存活 的 对 象 将 被 复制 到 Survivor 区 (两 个 中 的 一 个 )， 
当 这 个 Survivor 区 满 时 ， 此 区 的 存活 对 象 将 被 复制 到 另外 一 个 Survivor 区 ， 当 这 个 Survivor 
区 也 满 了 的 时 候 ， 从 第 一 个 Survivor 区 复制 过 来 的 并 且 此 时 还 存活 的 对 象 ， 将 被 复制 到 “年 
老区 〈Tenured) ”。 注 意 ，Survivor 的 两 个 区 是 对 称 的 ， 没 先后 关系 ， 所 以 同一 个 区 中 可 能 
同时 存在 从 Eden 复制 过 来 的 对 象 ， 和 从 前 一 个 Survivor 复制 过 来 的 对 象 ， 而 复制 到 年 老区 
的 只 有 从 第 一 个 Survivor 复制 过 来 的 对 象 。 而 且 ，Survivor 区 总 有 一 个 是 空 的 。 同 时 ， 根 据 
程序 需要 ，Survivor 区 是 可 以 配置 为 多 个 的 (多 于 两 个 ) ， 这 样 可 以 增加 对 象 在 年 轻 代 中 的 
存在 时 间 ， 减 少 被 放 到 老年 代 的 可 能 


2. 老年 代 


在 年 轻 代 中 经 历 了 六 次 垃圾 回收 后 仍然 存活 的 对 象 ， 就 会 被 放 到 老年 代 中 。 因 此 ， 可 以 
认为 老年 代 中 存放 的 都 是 一 些 生命 周期 较 长 的 对 象 。 


3. 持久 代 


持久 代用 于 存放 静态 文件 、 Java 类 、 方 法 等 。 持 久 代 对 垃圾 回收 没有 显著 影响 ， 但 是 
有 些 应 用 可 能 动态 生成 或 者 调用 一 些 class， 如 hibemate 等 , 这 时 需要 设置 一 个 比较 大 的 持久 
代 空间 来 存放 这 些 运 行 过 程 中 新 增 的 类 。 持 久 代 的 大 小 通过 -XX: MaxPermSize=<N> 进 行 
设置 。 

4. Scavenge GC 


一 般 情况 下 ， 当 新 对 象 生 成 ,并且 在 Eden 申请 空间 失败 时 ， 就 会 触发 Scavenge GC， 对 
Eden 区 域 进行 GC， 清 除非 存活 对 象 ， 并 且 把 尚且 存活 的 对 象 移动 到 Survivor 区 。 然 后 整理 
Survivor 的 两 个 区 。 这 种 方式 的 GC 是 对 年 轻 代 的 Eden 区 进行 ， 不 会 影响 到 老年 代 。 因 为 大 
部 分 对 象 都 是 从 Eden 区 开始 的 ， 同 时 Eden 区 不 会 分 配 得 很 大 ， 所 以 Eden 区 的 GC 会 频繁 
进行 。 因 而 ， 一 般 在 这 里 需要 使 用 速度 快 、 效 率 高 的 算法 ， 使 Eden 区 能 尽快 空闲 出 来 。 

5. Full GC 


对 整个 堆 进 行 整理 , 包括 Young、Tenured 和 Perm。 Full GC 因为 需要 对 整个 堆 进行 回收 ， 
所 以 比 Scavenge GC 慢 ， 因 此 应 该 尽 可 能 减少 Full GC 的 次 数 。 在 对 JVM 调 优 的 过 程 中 ， 很 
大 一 部 分 工作 是 对 Full GC 的 调节 。 
有 如 下 原因 可 能 导致 Full GC。 
口 老年 代 (Tenured) 被 写 满 。 
口 持久 代 (Permm) 被 写 满 。 
口 System.GCO 被 显 式 调用 。 
口 上 一 次 GC 之 后 ，Heap 的 各 域 分 配 策略 动态 变化 。 
at java.util.concurrent.ThreadPoolExecutor$ Worker.runTask 
(ThreadPoolExecutor.Java: 886) 
at java.util.concurrent.ThreadPoolExecutor$ Worker.run 
(ThreadPoolExecutor.java: 908) 
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at java.lang.Thread.run(Thread.java: 662) 

Exception in thread "http-bio-17788-exec-74" 

java.lang.OutOfMemoryError: PermGen space 

Exception in thread "http-bio-17788-exec-75" 

java.lang.OutOfMemoryError: PermGen space 

Exception in thread "http-bio-17788-exec-76" 

Java.lang. ee PermGen space 

从 以 下 日 志明 显 可 以 看 出 是 老年 代 的 内 存 溢出 ， 说 明 在 容器 下 的 静态 文件 过 多 ， 例 如 ， 
编 泽 的 字 节 码 ， JSP 编译 成 Servlet， 或 者 Jar 包 。 


at java.util.concurrent.ThreadPoolExecutor$Worker.runTask 
(ThreadPoolExecutor .java: 886) 
at java.util.concurrent.ThreadPoolExecutor$Worker.run 
(ThreadPoolExecutor .java: 908) 
at java.lang.Thread.run (Thread.java: 662) 
Exception in thread "http-bio-17788-exec-74" 
java.lang.OutOfMemoryError: PermGen space 
Exception in thread "http-bio-17788-exec-75" 
java.lang.OutOfMemoryError: PermGen space 

0. Exception in thread "http-bio-17788-exec-76" 

1. java.lang.OutOfMemoryError: PermGen space 


[| 
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要 解决 此 问题 ， 修 改 JVM 的 参数 PermSize 即 可 ，PermSize 初始 默认 为 64MB。 


6.JVM 内 存 参数 

1. -vmargs -Xmsl28MB -Xmx512MB -XX: PermSize=64MB -XX: MaxPermSize=128MB 
2. -vmargs 说 明 后 面 是 VM 的 参数 

3. -Xms128MB JVM 初始 分 配 的 堆 内 存 

4. -xmx512MB JVM 最 大 允许 分 配 的 堆 内 存 ， 按 需 分 配 

5. -XX: PermSize=64MB JVM 初始 分 配 的 非 堆 内 存 

6. -XX: MaxPermSize=128MB JVM 最 大 允许 分 配 的 非 堆 内 存 ， 按 需 分 配 


默认 , 新 生 代 (Young) 与 老年 代 (Old) 的 比值 为 1 : 2( 该 值 可 以 通过 参数 - XX: NewRatio 
指定 ) ， 即 新 生 代 〈Young) = 1/3 的 堆 空间 大 小 。 

老年 代 (Old)=2/3 的 堆 空间 大 小 。 其 中 , 新 生 代 (Young) 被 细 分 为 Eden 和 两 个 Survivor 
区 域 ， 这 两 个 Survivor 区 域 分 别 被 命名 为 fom 和 to 以 示 区 分 。 

默认 的 配置 Edem: from: to =8 : 1: 1 (可 以 通过 参数 - XX: SurvivorRatio 来 设 定 ) ， 
即 Eden = 8/10 的 新 生 代 空间 大 小 ，from =to = 1/10 的 新 生 代 空间 大 小 。 

JVM 每 次 只 会 使 用 Eden 和 其 中 的 一 块 Survivor 区 域 来 为 对 象 服务 , 所 以 无 论 什么 时 候 ， 
总 有 一 块 Survivor 区 域 是 空闲 着 的 ， 如 图 26-4 所 示 。 
天 此， 新 生 代 实 际 可 用 的 内 存 空间 为 10〈 即 90%) 的 新 生 代 空间 。 


7. 堆 (CHeap) 和 非 堆 (Non-heap) 内 存 


按照 官方 的 说 法 : “Java 虚拟 机 具有 一 个 堆 ， 堆 是 运行 时 数据 区 域 ， 所 有 类 实例 和 数组 
的 内 存 均 从 此 处 分 配 。 堆 是 在 Java 虚拟 机 启动 时 创建 的 ”; “在 JVM 中 ， 堆 之 外 的 内 存 称 
为 非 堆 内 存 (Non-heap Memory) ”。 
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一 MinorGC 一 一 





Major GC 











一 一 JVM Heap (-Xms -Xmx) -XX:PermSize 
一 一 Young Gen (-Xmn)—— -XX:MaxPermSize 


图 26-4 新 生 代 内 存 空 间 示 意图 


可 以 看 出 ，JVM 主要 管理 两 种 类 型 的 内 存 : 堆 和 非 堆 。 简 单 来 说 ， 堆 就 是 Java 代码 可 
及 的 内 存 ， 是 留 给 开发 人 员 使 用 的 ; 非 堆 就 是 JVM 留 给 自己 用 的 。 

Java 8 的 一 个 特性 就 是 完全 地 移 除 永久 代 (Permanent Generation (PermGen) ) ， 这 从 
JDK 7 开始 Oracle 就 开始 行动 了 。 例 如 ， 本 地 化 的 String 从 JDK 7 开始 就 被 移 除 了 永久 代 
(Permanent Generation) 。JDK 8 让 它 最 终 退 役 了 。-XX: PermSize 和 -XX: MaxPermSize 
选项 会 被 忽略 ， 如 图 26-5 所 示 。 


传统 Java 堆 水 久 代 


T 
连续 的 Java 堆 和 非 堆 空间 





























| 传统 Javal 
T 
连续 的 Java 堆 
抑 空 间 VM| 
元 数据 
本地 内 存 空间 


图 26-5 永久 代 变 迁 示意 图 


JDK 8.HotSpot JVM 开始 使 用 本 地 化 的 内 存 存放 类 的 元 数据 ， 这 个 空间 叫 作 元 空间 
(Metaspace) 。 类 的 元 数据 信息 (metadata) 还 在 ， 只 不 过 不 再 是 存储 在 连续 的 堆 空 间 上 ， 而 
是 移动 到 Metaspace 中 。 

类 的 元 数据 信息 转移 到 Metaspace 的 原因 是 PermGen 很 难 调整 。 PermGen 中 类 的 元 数据 
信息 在 每 次 FullGC 的 时 候 可 能 会 被 收集 ， 但 成 绩 很 难 令 人 满意 。 而 且 应 该 为 PermGen 分 配 
多 大 的 空间 很 难 确定 ， 因 为 PermSize 的 大 小 依赖 于 很 多 因素 ， 如 JVM 加 载 的 class 的 总 数 、 
常量 池 的 大 小 、 方 法 的 大 小 等 。 

此 外 , 在 HotSpot 中 的 每 个 垃圾 收集 器 需要 专门 的 代码 来 处 理 存储 在 PermGen 中 的 类 的 
元 数据 信息 。 从 PermGen 分 离 类 的 元 数据 信息 到 Metaspace， 由 于 Metaspace 的 分 配 具 有 和 
Java Heap 相同 的 地 址 空间 , 因此 Metaspace 和 Java Heap 可 以 无 颖 地 管理 , 而且 简化 了 FullGC 
的 过 程 ， 以 至 将 来 可 以 并 行 地 对 元 数据 信息 进行 垃圾 收集 ， 而 没有 GC 暂停 。 
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26.1.4 JVM 进行 GC 的 具体 工作 流程 详解 


内 存 处 理 器 是 编程 人 员 容易 出 现 问题 的 地 方 ， 忘 记 或 者 错误 的 内 存 回 收 会 导致 程序 或 系 
统 的 不 稳定 ， 甚 至 月 溃 。Java 语言 提供 的 GC 功能 可 以 自动 地 检测 对 象 是 否 超过 作用 域 ， 从 
而 达到 自动 回收 内 存 的 目的 。Java 语言 没有 提供 释放 已 分 配 内 存 的 显 式 操作 方法 ， 资 源 回收 
工作 全 部 交 由 GC 来 完成 ， 程 序 员 不 能 精确 地 控制 垃圾 回收 的 时 机 。 

GC 在 实现 垃圾 回收 时 的 基本 原理 : 

Java 的 内 存 管 理 实际 就 是 对 象 的 管理 ， 其 中 包括 对 象 的 分 配 和 释放 。 对 于 程序 员 来 说 ， 
分 配对 象 使 用 new 关键 字 ， 释 放 对 象 时 只 是 将 对 象 赋值 为 null， 让 程序 员 不 能 够 再 访问 到 这 
个 对 象 ， 该 对 象 被 称 为 “不 可 达 ”。GC 将 负责 回收 所 有 “不 可 达 ” 对 象 的 内 存 空间 。 

对 于 GC 来 说 ， 当 程序 员 创 建 对 象 时 ，GC 就 开始 监控 这 个 对 象 地 址 、 大 小 以 及 使 用 情 
况 。 通 常 ，GC 采用 有 向 图 的 方式 记录 并 管理 堆 中 的 所 有 对 象 ， 通 过 这 种 方式 确定 哪些 对 象 
是 “可 达 ” 的 ， 哪 些 对 象 是 “不 可 达 ” 的 。 当 GC 确定 一 些 对 象 为 “不 可 达 ” 时 ，GC 就 有 
责任 回收 这 些 内 存 空间 ， 但 为 了 GC 能 够 在 不 同 的 平台 上 实现 ，Java 规范 对 GC 的 很 多 行为 
都 没有 进行 严格 的 规定 。 例 如 ， 对 于 采用 什么 类 型 的 回收 算法 、 什 么 时 候 进 行 回收 等 重要 问 
题 ， 都 没有 明确 规定 ， 因 此 ， 不 同 的 JVM 实现 着 不 同 的 算法 ， 这 也 给 Java 程序 员 的 开发 带 
来 了 很 多 不 确定 性 。 

内 存 碎 片 整理 步 又 ， 当 Eden 满 了 ,一 个 小 型 的 GC 被 触发 ，Eden 和 Survivorl 中 幸存 的 
仍 被 使 用 的 对 象 被 复制 到 Survivor2。Survivorl 和 Survivor2 区 域 进行 交换 。 当 一 个 对 象 生存 
的 时 间 足 够 长 或 者 Survivor2 满 了 ， 它 被 转移 到 Old 代 。 最 终 ， 当 Old 空间 快 满 时 ， 一 个 全 面 
的 GC 被 召唤 。 在 Spark 应 用 中 ，GC 优化 的 目的 是 使 Spark 保证 只 有 长 生存 周期 的 RDD 才 
会 被 存储 在 Old 代 ， 并 且 Young 代 设 计 为 满足 存储 短 生 命 周 期 的 对 象 。 























26.1.5 JVM 常见 调 优 参数 详解 


针对 MetaSpace，JVMS8 增加 了 新 的 Flag: 


1. -XX: MetaspaceSize 初始 化 元 空间 的 大 小 (默认 12MB 在 32bit client VM and 16MB 在 
32bit server VM, 在 64bit VM 上 会 更 大 些 ) 
2. -XX: MaxMetaspaceSize 最 大 元 空间 的 大 小 (默认 本 地 内 存 ) 
3. -XX: MinMetaspaceFreeRatio 扩大 空间 的 最 小 比率 ， 当 GC 后 ， 内 存 占用 超过 这 一 比率 ， 
就 会 扩大 空间 
4. -XX: MaxMetaspaceFreeRatio 缩小 空间 的 最 小 比率 ， 当 GC 后 ， 内 存 占用 低 于 这 一 比率 ， 
就 会 缩小 空间 
默认 的 Metaspace 只 会 受 限于 本 地 内 存 大 小 。 当 Metaspace 达到 MetaspaceSize 的 当前 大 
小 时 ， 就 会 触发 GC。 当然， 可 以 设置 MetaspaceSize 一 个 更 大 的 值 ， 来 延迟 触发 GC。 
Spark GC 调 优 的 目标 是 确保 老生 代 〈(Old Generation ) 只 保存 长 生命 周期 RDD， 同 时 ， 
新 生 代 (Young Generation ) 的 空间 又 能 足够 保存 短 生 命 周 期 的 对 象 。 这 样 就 能 在 任务 执行 
期 间 ， 避 免 启 动 Full GC。 以 下 是 GC 调 优 的 主要 步骤 : 
口 从 GC 的 统计 日 志 中 观察 GC 是 否 启 动 太 多 。 如 果 某 个 任务 结束 前 ， 多 次 启动 了 Full 
GC， 则 意味 着 用 以 执行 该 任务 的 内 存 不 够 。 
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口 如 果 GC 统计 信息 中 显示 ， 老 生 代 内 存 空间 已 经 接近 存 满 ， 可 以 通过 降低 Spark. 
memory.storageFraction 来 减少 RDD 缓存 占用 的 内 存 ; 减少 缓存 对 象 总 比 任务 执行 组 
慢 强 ! 
口 如 果 Major GC 比较 少 ， 但 Minor GC 很 多 ， 就 可 以 多 分 配 一 些 Eden 内 存 。 可 以 把 
Eden 的 大 小 设 为 高 于 各 个 任务 执行 所 需 的 工作 内 存 。 如 果 把 Eden 大 小 设 为 E， 则 可 
以 这 样 设置 新 生 代 区 域 大 小 : -Xmn=4/3*E。 (放大 4/3 倍 ， 主 要 是 为 了 给 Survivor 
区 域 保留 空间 〉。 例 如 ， 如 果 你 的 任务 会 从 HDFS 上 读 取 数 据 ， 那 么 单个 任务 的 内 
存 需求 可 以 用 其 读 取 的 HDFS 数据 块 的 大 小 来 评估 。 需 要 特别 注意 的 是 ， 解 压 后 的 
HDFS 块 是 解压 前 的 2 一 3 倍 。 所以， 如 果 希 望 保留 3 一 4 个 任务 并 行 的 工作 内 存 ， 并 
且 HDFS 块 的 大 小 为 64MB， 那 么 评估 Eden 的 大 小 可 以 设置 为 斗 4X3X64MB。 
口 最 后 再 观察 一 下 垃圾 回收 的 启动 频率 和 总 耗 时 有 没有 变化 。 
很 多 经 验 表 明 ，GC 调 优 的 效果 和 程序 代码 以 及 可 用 的 总 内 存 相 关 。 网 上 还 有 不 少 调 优 
的 选项 说 明 (many more tuning options) ， 但 总 体 来 说 ， 就 是 控制 好 Full GC 的 启动 频率 ， 就 
能 有 效 减少 垃圾 回收 开销 。 








26.2 Spark 中 对 JVM 使 用 的 内 存 原理 图 详解 及 调 优 


Spark 作为 分 布 式 计算 框架 ， 由 于 其 优先 使 用 内 存 ， 故 内 存 的 管理 对 性 能 有 重大 影响 ， 
我 们 了 解 其 内 存 管 理 机 制 和 对 内 存 的 使 用 情况 ， 也 将 大 大 有 助 于 程序 的 优化 。 


26.2.1 Spark 中 对 JVM 使 用 的 内 存 原理 图 说 明 
Spark 1.6.0 前 使 用 的 内 存 管理 模式 由 StaticMemoryManager 实现 ,如 图 26-6 所 示 。 而 Spark 


1.6.0 后 使 用 的 内 存 管 理 模式 由 UnifiedMemoryManager 实现 ， 如 图 26-7 所 示 。 当 然 ， 也 可 以 
通过 参数 spark.memory.useLegacyMode 来 配置 使 用 哪 种 内 存 管理 模式 。 
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图 26-6 StaticMemoryManager 
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图 26-7 UnifiedMemoryManager 


26.2.2 ”Spark 中 对 JVM 使 用 的 内 存 原理 图 内 幕 详解 


Executor 中 对 内 存 的 使 用 涉及 以 下 几 点 。 

(1) RDD 存储 。 当 对 RDD 调用 persist 或 Cache 方法 时 ，RDD 的 partitions 会 被 存储 到 
内 存 里 。 

(2) shuffle 操作 。Shuffle 时 ， 需 要 缓冲 区 来 存储 Shuffle 的 输出 和 聚合 的 中 间 结 果 。 

(3) 用 户 代码 。 用 户 编写 的 代码 能 使 用 的 内 存 空间 是 整个 堆 空间 除了 上 述 两 点 之 后 剩 下 
的 空间 。 

StaticMemoryManage 模式 下 ， 堆 空间 分 为 Storage 区 和 Shuffle 区 。Storage 区 能 使 用 的 
堆 空间 的 比例 由 spark.storage.memoryFraction 指定 , 默认 值 为 0.6, 为 了 避免 内 存 溢出 的 风险 ， 
还 有 一 个 参数 spark.storage.safetyFraction 来 指定 安全 区 比例 ， 该 参数 的 默认 值 是 0.9， 故 实际 
可 用 的 Storage 区 为 堆 空间 的 0.54〈 0.9X0.6 = 0.54) ; Shuffle 区 所 能 使 用 的 堆 空间 的 比例 
由 Spark.Shuffle.memoryFraction 指定 ,默认 值 为 0.2, 为 了 避免 内 存 溢出 的 风险 , 还 有 一 个 参 
数 Spark.Shuffle.safetyFraction 来 指定 安全 区 比例 , 该 参数 默认 值 是 0.8, 故 实际 可 用 的 shuffle 
区 为 堆 空间 的 0.16〈 0.8X0.2=0.16) 。 如 果 Spark 作业 中 有 较 多 的 RDD 持久 化 操作 ， 则 可 
以 将 Spark.Storage.memoryFraction 的 值 适当 提高 一 些 ,保证 持久 化 的 数据 能 够 容纳 在 内 存 中 ， 
避免 内 存 不 够 缓存 所 有 数据 ， 导 致 数据 只 能 写 入 磁盘 中 ， 降 低 了 性 能 。 但 是 ， 如 果 Spark 作 
业 中 的 Shuffle 类 操作 比较 多 , 而 持久 化 操作 比较 少 ,那么 可 以 将 Spark.Storage.memoryFraction 
的 值 适 当 降 低 一 些 ， 而 将 Spark.Shuffle memoryFraction 的 值 适当 提高 一 些 , 以 避免 Shuffle 过 
程 中 数据 过 多 时 内 存 不 够 用 ， 必 须 溢 写 到 磁盘 上 ， 而 降低 性 能 ， 此 外 ， 如 果 发 现 作业 由 于 频 
繁 的 GC 导致 运行 缓慢 (通过 Spark Web UI 可 以 观察 到 作业 的 GC 耗 时 ) ， 意 味 着 task 执行 
用 户 代 码 的 内 存 不 够 用 ， 那 么 同样 建议 调 低 参 数 Spark.Storage.memoryFraction 和 
Spark.Shuffle memoryFraction 的 值 。 

UnifiedMemoryManager 模式 下 , 整个 堆 空 间 分 为 Spark Memory 和 User Memory, 在 Spark 
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Memory 内 部 又 分 为 Storage Memory 和 Execution Memory, Storage Memory 和 Execution 
Memory 并 没有 硬 界 限 ， 可 以 相互 借用 空间 。 可 以 通过 参数 Spark.Memory.fraction 〈 默 认为 
0.75) 来 设置 Spark Memory 所 占 的 整个 堆 空 间 的 比例 ， 剩 下 的 空间 就 是 User Memory (默认 
为 1-0.75=0.25) ; 通过 Spark.Memory.storageFraction 〈 默 认为 0.5) 设置 Storage Memory 所 
占 的 Spark Memory 的 比例 。 根 据 实 际 的 程序 中 Cache 的 多 少 ，Shuffle 的 多 少 ， 对 象 的 多 少 
等 ， 可 以 调整 上 述 各 个 参数 来 调整 各 个 内 存 区 的 大 小 ， 进 而 优化 程序 。 

下 面 重点 看 一 下 UnifiedMemoryManager 模式 下 的 相关 参数 。 

Spark.Storage.memoryFraction: 该 参数 用 于 设置 RDD 持久 化 数据 在 Executor 内 存 中 能 占 
的 比例 ， 默 认 是 0.6。 也 就 是 说 ， 默 认 占 Executor 60% 的 内 存 ， 可 以 用 来 保存 持久 化 的 RDD 
数据 。 根 据 选择 的 不 同 的 持久 化 策略 ， 如 果 内 存 不 够 时 ， 可 能 数据 就 不 会 持久 化 ， 或 者 数据 
会 写 入 和 磁盘。 参数 调 优 建议 : 如 果 Spark 作业 中 有 较 多 的 RDD 持久 化 操作 ， 该 参数 的 值 可 以 
适当 提高 一 些 ， 保 证 持久 化 的 数据 能 够 容纳 在 内 存 中 ， 避 免 内 存 不 够 缓存 所 有 的 数据 ， 导 致 
数据 只 能 写 入 磁盘 中 ， 降 低 了 性 能 。 但 是 ， 如 果 Spark 作业 中 的 Shuffle 类 操作 比较 多 ， 而 持 
久 化 操作 比较 少 ， 那 么 适当 降低 一 些 这 个 参数 的 值 比较 合适 。 此 外 ， 如 果 发 现 作 业 由 于 频繁 
的 GC 导致 运行 缓慢 〈 通 过 Spark Web UI 可 以 观察 到 作业 的 GC 耗 时 ) ， 则 意味 着 task 执行 
用 户 代 码 的 内 存 不 够 用 ， 那 么 同样 建议 调 低 这 个 参数 的 值 。 

Spark.Shuffle memoryFraction: 该 参数 用 于 设置 Shuffle 过 程 中 一 个 Task 拉 取 到 上 一 个 
stage 的 task 的 输出 后 ， 进 行 聚合 操作 时 能 够 使 用 的 Executor 内 存 的 比例 ， 默 认 是 0.2。 也 就 
是 说 ，Executor 默认 只 有 20% 的 内 存 用 来 进行 该 操作 。Shuffle 操作 在 进行 聚合 时 ， 如 果 发 现 
使 用 的 内 存 超出 了 20% 的 限制 ， 那 么 多 余 的 数据 就 会 溢 写 到 磁盘 文件 中 ， 此 时 就 会 极 大 地 降 
低 性 能 。 参 数 调 优 建议 : 如 果 Spark 作业 中 的 RDD 持久 化 操作 较 少 ，Shuffle 操作 较 多 时 ， 
建议 降低 持久 化 操作 的 内 存 占 比 ， 提 高 Shuffle 操作 的 内 存 占 比 比例 ， 避 免 Shuffle 过 程 中 数 
据 过 多 时 内 存 不 够 用 ,必须 溢 写 到 磁盘 上 ， 降 低 了 性 能 。 此 外 ， 如 果 发 现 作业 由 于 频繁 的 GC 
导致 运行 缓慢 , 则 意味 着 Task 执行 用 户 代 码 的 内 存 不 够 用 , 那么 同样 建议 调 低 这 个 参数 的 值 。 

1. 确定 内 存 消耗 

可 以 在 程序 中 通过 Cache 方法 将 RDD Cache 到 内 存 中 , 然后 通过 WebUI 的 Storage 页 面 
查看 该 RDD 占用 了 多 少 内 存 ， 或 查看 Driver 的 日 志 。 

有 很 多 工具 也 可 以 帮助 我 们 了 解 内 存 的 消耗 ， 如 JVM 自 带 的 众多 的 内 存 消耗 诊断 工具 
JMap、JSonsole 等 ， 第 三 方 工具 如 IBM JVM Profile Tools 等 。 

通过 这 些 方法 ， 可 以 了 解 各 种 数据 结构 、 广 播 变量 等 对 内 存 的 占用 ， 从 而 选择 使 用 对 内 
存 更 友好 的 数据 结构 。 


2. 数据 结构 调 优 


Spark 程序 的 调 优 同 普通 的 Java 程序 一 样 , 都 要 关注 数据 结构 的 合理 使 用 , 又 由 于 Spark 
优先 基于 内 存 的 特点 ， 程 序 员 就 更 要 注意 选取 合适 的 内 存 和 友好 的 数据 结构 ， 以 减少 内 存 
消耗 。 

3. 采用 合适 的 序列 化 器 序列 化 要 持久 化 的 RDD 

由 于 Spark 默认 的 序列 化 器 org.apache.spark serializer.JavaSerializer， 相 比 Kryo 序列 化 器 
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org.apache.spark.serializerKryoSerializer， 性 能 和 空间 表现 都 比较 差 ， 所 以 我 们 在 持久 化 RDD 
时 ， 应 该 优先 使 用 压缩 率 更 高 、 更 快 的 Kryo 序列 化 器 。 





26.2.3 Spark 下 的 常见 的 JVM 内 存 调 优 参数 最 佳 实践 


JVM 的 垃圾 回收 在 某 些 情 况 下 可 能 造成 瓶颈 。 例 如 ，RDD 存储 经 常 需要 “ 换 入 换 出 ” 
(新 RDD 抢占 了 老 RDD 内 存 , 不 过 , 如 果 程 序 没有 这 种 情况 , 那 JVM 垃圾 回收 一 般 不 是 问题 。 

例如 ，RDD 只 是 载 入 一 次 ， 后 续 只 是 在 这 一 个 RDD 上 操作 ) 。 当 Java 需要 把 老 对 象 逐 出 
存 的 时 候 ，JVM 需要 跟踪 所 有 的 Java 对 象 ， 并 找 出 哪些 对 象 已 经 没有 用 了 。 概 括 起 来 就 是 : 
垃圾 回收 的 开销 和 对 象 个 数 成 正比 ， 所 以 减少 对 象 的 个 数 〈 如 用 Int 数组 取代 LinkedList) ， 
就 能 大 大 减少 垃圾 回收 的 开销 。 当 然 ， 一 个 更 好 的 方法 是 以 序列 化 形式 存储 数据 ， 这 时 每 个 
RDD 分 区 都 只 包含 有 一 个 对 象 ( 一 个 巨大 的 字 节 数组 )。 在 尝试 其 他 技术 方案 前 ， 首 先 可 以 
试 试用 序列 化 RDD 的 方式 (serialized caching) 评估 一 下 GC 是 不 是 一 个 瓶颈 。 

如 果 作 业 中 各 个 任务 需要 的 工作 内 存 和 节点 上 存储 的 RDD 缓存 占用 的 内 存 产 生 冲 突 ， 
那么 GC 很 可 能 会 出 现 问题 。 下 面 讨论 如 何 控制 好 RDD 缓存 使 用 的 内 存 空间 ， 以 减少 这 种 
冲突 。 

GC 调 优 的 第 一 步 是 统计 一 下 GC 启动 的 频率 以 及 GC 使 用 的 总 时 间 。 给 JVM 设置 参数 : 
-Verbose: GC -XX: +PrintGCDetails, 就 可 以 在 后 续 Spark 作业 的 Worker 日 志 中 看 到 每 次 GC 
花费 的 时 间 。 注 意 ， 这 些 日 志 是 在 集群 Worker 节点 上 (在 各 节点 的 工作 目录 下 的 Stdout 文 
件 中 ) ， 而 不 是 在 驱动 器 所 在 节点 上 。 

为 避免 全 面 GC 去 收集 Spark 运行 期 间 产 生 的 临时 对 象 ， 一 些 实用 技巧 如 下 。 

首先 检查 GC 日 志 中 是 否 有 过 于 频繁 的 GC。 如 果 在 一 个 任务 完成 前 , 全 量 GC 被 唤醒 了 
多 次 ， 它 意味 着 对 于 执行 任务 来 说 ， 没 有 分 配 足 够 的 内 存 。 如 果 有 太 多 的 小 型 垃圾 收集 ， 但 
全 量 GC 出 现 并 不 多 , 给 Eden 分 配 更 多 的 内 存 会 很 有 帮助 。 可 以 为 每 个 任务 设置 一 个 高 于 其 
所 需 内 存 的 值 。 假 设 Eden 代 的 内 存 需求 量 为 E， 可 以 设置 Young 代 的 内 存 为 -Xmn=4/3*E。 
(这 一 设置 同样 也 会 导致 Survivor 区 同时 扩张 ) 在 GC 打印 的 日 志 中 , 如 果 OldGen 接近 满 时 ， 
可 以 通过 降低 Spark.memory.fraction 减少 用 于 缓存 的 空间 。 更 好 的 方式 是 缓存 更 少 的 对 象 ， 
而 不 是 降低 作业 执行 时 间 。 一 个 可 选 的 方案 是 减少 Young 代 的 规模 。 如 果 设 置 了 -Xmn， 可 
以 降低 -Xmn。 如 果 没 有 设置 , 可 以 尝试 改变 JVM 的 NewRatio 参数 。 很 多 JVM 的 NewRation 
默认 值 是 2， 这 意味 着 Old 代 申 请 2/3 的 堆 空 间 。 它 的 值 应 足够 大 ， 以 至 可 以 超过 
Spark.memory.fraction。 尝 试 使 用 G1GC 垃圾 收集 选项 ，-XX: +UseG1GC。 当 GC 存在 瓶颈 
时 ， 采 用 这 一 选项 在 某 些 情况 下 可 以 提升 性 能 。 当 执行 器 的 堆 空间 比较 大 时 ， 提 升 G1 region 
size〈(-XX: G1HeapRegionSize) 是 一 种 重要 的 选择 。 如 果 你 的 任务 需要 从 HDFS 系统 读 取 数 
据 ， 可 以 通过 估计 HDFS 文件 的 大 小 来 预 估 任务 所 需 的 内 存量 。 需 要 注意 的 是 ， 解 压 后 的 块 
大 小 是 原 大 小 的 2~3 倍 。 因 此 我 们 需要 设置 3 一 4 倍 的 工作 空间 用 于 作业 执行 ， 例 如 HDFS 
的 块 大 小 为 128MB， 我 们 需要 预 估 Eden 的 大 小 为 4X3X128MB。 上 监控 在 新 变化 和 设置 生效 
后 ，GC 的 频率 和 耗费 的 时 间 。 

我 们 的 经 验 建议 是 : GC 优化 的 成 效 依赖 于 你 的 应 用 和 可 用 内 存 的 多 少 。 网 上 也 有 许多 
优化 策略 ， 但 是 需要 更 深 的 知识 基础 ， 例 如 ， 通 过 控制 全 量 GC 发 生 的 频率 来 降低 总 开销 。 

通过 设置 Spark.Executor.extraJavaOptions 可 以 实现 对 Executor 中 GC 的 优化 调整 。 
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(1) Spark 的 钨 丝 计划 是 专门 用 来 解决 JVM 性 能 问题 的 ， 在 Spark2.0 以 前 ， 钨 丝 计划 功 
不 稳定 且 不 完善 ， 且 只 能 在 特定 的 情况 下 发 生 作用 ， 包 括 Spark 1.6.0 在 内 的 Spark 及 其 以 

前 的 版 本 ， 大 多 数 情况 下 没有 使 用 钨 丝 计 划 的 功能 ， 所 以 此 时 就 必须 关注 JVM 性 能 调 优 。 

(2) JVM 性 能 调 优 的 关键 是 调 优 GC。 为 什么 GC 如 此 重要 ? 主要 是 因为 Spark 热衷 于 
RDD 的 持久 化 。GC 本 身 的 性 能 开销 是 和 数据 量 成 正比 的 。 

(3) 初步 可 以 考虑 的 是 尽量 多 地 使 用 array 和 String， 并 且 在 序列 化 机 制 方面 尽 可 能 的 采 
用 Kryo， 让 每 个 Partition 都 成 为 字 节 数组 ; 

(4) 监控 GC 的 方式 有 两 种 。 

@ 配置 JVM 参数 : 

1. Spark.Executor.extraJavaOptions = -Verbose: GC -XX: +PrintGCDetails -XX: 

+ PrintGCDateTimeStamps 
例如 : 


:车 ./bin/Spark-Submit --name "My app" --master local[4] --conf Spark.Shuffle. 
spill=false --conf "Spark.Executor.extraJavaOptions=-XX:+PrintGCDetails 
—XX: +PrintGCTimeStamps" myApp.jar 





@ SparkUI 的 4040 端口 是 通过 Web UI 页 面 进行 监控 的 。 

(5) Spark 默认 情况 下 使 用 60% 的 空间 进行 缓存 RDD 的 内 容 。 也 就 是 说 ，Task 在 执行 的 
时 候 ， 只 能 使 用 剩 下 的 40% 的 空间 ， 如 果 空 间 不 够 用 ， 就 会 触发 (频繁 的 ) GC。 可 以 设置 
Spark.memory.fraction 参数 来 调整 空间 的 使 用 ， 例 如 ， 降 低 Cache 的 空间 ， 让 Task 使 用 更 多 
的 空间 创建 对 象 和 完成 计算 ; 再 次 强烈 建议 从 RDD 进行 Cache 的 时 候 使 用 Kryo 序列 化 ， 从 
而 给 Task 分 配 更 大 的 空间 ， 来 顺利 完成 计算 (避免 频繁 的 GC》。 

(6) 因为 在 老年 代 空 间 满 的 时 候 会 发 生 FULL GC 操作 ， 而 老年 代 空间 中 基本 都 是 存活 
得 比较 久 的 对 象 ( 经 历数 次 GC 依旧 存在 ) ， 此 时 会 停 下 所 有 的 程序 线程 ， 进 入 FULL GC， 
对 OLD 区 中 的 对 象 进行 整理 ， 严 重 影响 性 能 ， 此 时 可 以 考虑 : 

@ 设置 Spark.memory.fraction 参数 〈 当 前 的 内 存 管理 器 的 最 大 内 存 使 用 比例 ， 默 认 值 
0.75) 进行 调整 空间 的 使 用 ， 来 给 年 轻 代 更 多 的 空间 ， 用 于 存放 短 时 间 存 活 的 对 象 。 

@ -Xmn 调整 Eden 区 域 : 对 RDD 中 操作 的 对 象 和 数据 进行 大 小 评估 ， 如 果 在 HDFS 上 
解压 后 ， 一 般 体积 可 能 会 变 成 原 有 体积 的 3 倍 左右 ， 根 据 数据 的 大 小 设置 Eden， 如 果 有 10 
个 Task， 每 个 Task 处 理 的 HDFS 上 的 数据 是 128MB， 则 需要 设置 -Xmn 为 10X128X3X4/3 
的 大 小 。 

@) -XX: SupervisorRatio。 

@ -XX: NewRatio。 

SupervisorRatio、NewRatio 正常 情况 下 不 用 随便 调 ， 前 提 是 在 对 JVM 非常 了 解 的 情况 
下 。 但 是 ， 数 据 级 别 到 PB 级 别 之 后 ， 就 完全 不 是 这 么 一 回 事 了 ， 就 要 去 研究 JVM 了 。 


26.3 Spark 下 JVM 的 On-Heap 和 Off-Heap 解密 


节 讲 解 Spark 下 JVM 的 On-Heap 和 Off-Heap 解密 ， 内 容 包括 : JVM 的 On-Heap 和 


。900 。 
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Off-Heap 详解 ， Spark 是 如 何 管理 JVM 的 On-Heap 和 Off-Heap; Spark 下 JVM 的 On-Heap 
和 Off-Heap 调 优 最 佳 实践 。 


26.3.1 JVM 的 On-Heap 和 Off-Heap 详解 


JVM 可 以 使 用 的 内 存 分 为 两 种 ， 堆 内 存 和 堆 外 内 存 。 

JVM 堆 内 存 分 为 两 块 : Permanent Space 和 Heap Space。 

Permanent 即 持久 代 “(Permanent Generation) ， 主 要 存放 的 是 Java 类 定义 信息 ， 与 垃圾 
收集 器 要 收集 的 Java 对 象 关 系 不 大 。 

Heap = { Old + NEW = {Eden, from, to} }，Old 即 老年 代 〈Old Generation) ，New 即 年 
轻 代 〈Young Generation) 。 老 年 代 和 年 轻 代 的 划分 对 垃圾 收集 影响 比较 大 。 

堆 内 存 完全 由 JVM 负责 分 配 和 释放 ， 如 果 程 序 没有 缺陷 代码 ， 导 致 内 存 泄露 ， 那 么 就 
不 会 遇 到 java.lang.OutOfMemoryError 错误 。 

使 用 堆 外 内 存 ， 就 是 为 了 能 直接 分 配 和 释放 内 存 ， 提 高 效率 。JDK5.0 之 后 ， 代 码 中 能 直 
接 操 作 本 地 内 存 的 方式 有 两 种 : 使 用 未 公开 的 Unsafe 和 NIO 包 下 ByteBuffer。 

广义 的 堆 外 内 存 : 

说 到 堆 外 内 存 ， 大 家 肯定 想到 堆 内 内 存 ， 这 也 是 我 们 大 家 接触 最 多 的 ， 我 们 在 JVM 参 
数 里 通常 设置 -Xmx 来 指定 堆 的 最 大 值 ， 不 过 ， 这 还 不 是 我 们 理解 的 Java 堆 ，-Xmx 的 值 是 新 
生 代 和 老生 代 的 和 的 最 大 值 ， 我 们 在 JVM 参数 里 通常 还 会 加 一 个 参数 -XX: MaxPermSize 来 
指定 持久 代 的 最 大 值 ， 那 么 我 们 认识 的 Java 堆 的 最 大 值 其 实 是 -Xmx 和 -XX: MaxPermSize 
的 总 和 。 在 分 代 算 法 下 ， 新 生 代 、 老 生 代 和 持久 代 是 连续 的 虚拟 地 址 ， 因 为 它们 是 一 起 分 配 
的 ， 那 么 剩 下 的 都 可 以 认为 是 堆 外 内 存 〈 广 义 的 ) 了 ， 这 些 包括 了 JVM 本 身 在 运行 过 程 中 分 
配 的 内 存 、 代 码 缓冲 〈codeCache) 、jni 里 分 配 的 内 存 、DirectByteBuffer 分 配 的 内 存 等 。 

狭义 的 堆 外 内 存 : 

而 作为 Java 开发 者 ， 我 们 常 说 的 堆 外 内 存 溢出 了 ， 其 实 是 狭义 的 堆 外 内 存 ， 这 主要 指 
java.nio.DirectByteBuffer 在 创建 的 时 候 分 配 的 内 存 ， 我 们 主要 是 讲 狭义 的 堆 外 内 存 ， 因 为 它 
和 我 们 平时 碰 到 的 问题 关系 比较 密切 。 

DirectByteBuffer 在 创建 的 时 候 会 通过 Unsafe 的 native 方法 直接 使 用 malloc 分 配 一 块 内 

存 ， 这 块 内 存 是 heap 之 外 的 ， 那 么 自然 也 不 会 对 GC 造成 什么 影响 (System.GC 除外 ) ， 因 
为 GC 耗 时 的 操作 主要 是 针对 heap 之 内 的 对 象 ， 对 这 块 内 存 的 操作 也 是 直接 通过 Unsafe 的 
native 方法 来 操作 的 ， 相 当 于 DirectByteBuffer 仅仅 是 一 个 壳 ， 还 有 在 通信 过 程 中 ， 如 果 数 据 
是 在 Heap 里 的 ， 最 终 也 还 是 会 复制 一 份 到 堆 外 ， 然 后 再 进行 发 送 ， 所 以 为 什么 不 直接 使 用 
堆 外 内 存 呢 ?对 于 需要 频繁 操作 的 内 存 , 并 且 仅 仅 是 临时 存在 一 会 的 , 都 建议 使 用 堆 外 内 存 ， 
并 且 做 成 缓冲 池 ， 不 断 循 环 利用 这 块 内 存 。 
如 果 大 面积 使 用 堆 外 内 存 并 且 没 有 限制 ， 那 迟早 会 导致 内 存 溢 出 ， 毕 竟 程 序 是 跑 在 一 台 
资源 受 限 的 机 器 上 ， 因 为 这 块 内 存 的 回收 不 是 直接 能 控制 的 ， 当 然 可 以 通过 别 的 途径 ， 如 反 
射 ， 直接 使 用 Unsafe 接口 等 ， 但 是 这 些 务必 会 带 来 一 些 烦恼 ，Java 与 生 俱 来 的 优势 被 完全 抛 
弃 了 开发 不 需要 关注 内 存 的 回收 ， 由 GC 算法 自动 去 实现 ) 。 另 外 ， 上 面 的 GC 机 制 与 堆 
外 内 存 的 关系 也 说 了 ， 如 果 一 直 触 发 不 了 cms GC 或 者 Full GC， 那 么 后 果 可 能 很 严重 。 
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26.3.2 Spark 是 如 何 管理 JVM 的 On-Heap 和 Off-Heap 的 





Spark 使 用 sun.misc.Unsafe 进行 Off-heap 级 别 的 内 存 分 配 、 指 针 使 用 及 内 存 释 放 。Spark 
为 了 统一 管理 Off-Heap 和 On-Heap， 提 出 了 Page。 

口 On-heap 方式 : 由 一 个 64bit 的 Object 的 引用 和 一 个 64bit 的 在 Object 中 的 OffSset 指 

定 具体 数据 。 堆 内 内 存 空间 GC 的 时 候 ， 对 堆 内 结构 重新 组 织 。 如 果 在 运行 的 时 候 
分 配 Java Object 对 象 ， 地 址 不 可 以 改变 ，JVM 对 内 存 管理 的 负担 远 远 大 于 Off-Heap 
方式 ， 因 为 GC 的 时 候 会 对 Heap 进行 相应 的 重组 。 

口 Off-Heap 方式 : 采用 C 语言 的 方式 ， 一 个 指针 直接 指向 数据 实体 。 

Spark 对 内 存 进行 了 封装 抽象 , 访问 数据 的 时 候 , 数据 可 能 在 堆 内 , 也 可 能 在 堆 外 , Spark 
提供 了 内 存 管 理 器 。 内 存 管 理 器 可 以 根据 数据 在 堆 内 ， 还 是 在 堆 外 进行 具体 寻 址 ， 但 是 ， 从 
程序 运行 的 角度 或 者 框架 的 角度 看 ， 堆 内 或 堆 外 寻 址 对 程序 是 封装 不 可 见 的 ， 管 理 器 会 自动 
完成 具体 地 址 和 寻 址 到 具体 数据 的 映射 过 程 。 

Page 会 针对 堆 外 内 存 和 堆 内 内 存 两 种 情况 进行 具体 的 适 配 。Page 寻 址 包括 两 部 分 : 数据 
在 哪个 Page，Page 的 具体 偏 移 量 OffSet 值 。 

(1) Off-Heap 方式 ， 内 存 就 直接 是 一 个 64bit 的 long 的 指针 指向 具体 数据 。 

寻 址 : 一 个 指针 直接 指向 数据 结构 。 

(2) On-Heap 方式 ， 堆 内 的 情况 有 两 部 分 ， 一 部 分 是 64bit 的 Object 的 引用 ， 另 外 一 部 
分 是 用 64bit 的 Object 内 的 Offset 来 表示 具体 的 数据 。 

寻 址 : GC 会 导致 Heap 重组 。 重 组 之 后 要 确保 Object 的 地 址 不 变 。 

Page 是 一 个 Table。Spark 通过 Page Table 的 方式 进行 内 存 管理 。 把 内 存 分 为 很 多 页 。 页 
只 是 一 个 单位 ， 和 分 配 数组 差不多 ， 具 体 通过 TaskMemoryManager 对 内 存 进 行 管理 ， 根 据 
allocatePage 来 分 配 页 。 地 址 和 数据 之 间 有 一 个 映射 ， 即 将 逻辑 地 址 映射 到 实际 的 物理 地 址 ， 
这 是 钢丝 计划 内 部 的 管理 机 制 。 由 于 逻辑 地 址 是 一 个 64bit 的 长 整数 ， 其 前 13 个 bit 表示 第 
几 页 ， 后 51bit 表示 在 页 内 的 偏 移 量 。 

所 以 , 寻 址 的 方式 就 是 先 找 到 page， 然后 根据 后 面 的 51bit， 加 上 偏 移 量 就 找到 了 具体 的 
数据 在 内 存 中 的 物理 地 址 。 

MemoryLocation: 封装 了 两 种 逻辑 地 址 寻 址 的 方式 。 

MemoryLocation.java 的 源码 如 下 。 

1 7 奈 
* 内 存 位 置 。 通 过 内 存 地 址 跟踪 ( 堆 外 内 存 分 配 ) ， 或 通过 JVM 对 象 的 偏 移 量 〈 堆 内 存 分 配 ) 
和 吏 反 


public class MemoryLocation { 


@Nullable 
Object obj; 


long offset; 


PPOoOANMAWN 


PO 


public MemoryLocation (@Nullable Object obj, long offset) { 


. 
总 
已 
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2 this.obj = obj; 

3- this.offset = offset; 

14. } 

ye 

16. public MemoryLocation() { 

ye this(null, 0); 

19 

19. 

20. public void setObjAndoffset (Object newObj, long newOffset) { 
2 this.obj = newObj; 

22. this.offset = newOffset; 

Z3e. 

24. 

25. public final Object getBaseObject() { 
26. return obj; 

ZT 

28- 

2 public final long getBaseOffset() { 
30. return offset; 

| 

S20 


TaskMemoryManager 管理 Page， 管 理 Off-heap 和 On-heap 的 方式 。 其 中 的 allocatePage 
方法 分 配 内 存 页 ， 分 配 以 后 加 入 pageTable 中 。 
TaskMemoryManager.java 的 源码 如 下 。 
1 
* 分 配 内 存 块 ， 将 在 MemoryManager 的 页 表 记 录 ; 用 于 分 配 Tungsten 内 存 模 式 下 的 内 存 


* 块 ， 这 些 内 存 将 在 操作 算 子 之 间 共 享 。 如 果 没有 足够 的 内 存 来 分 配 页 面 ， 则 返回 nul1。 可 能 
* 返回 一 页 ， 其 包含 的 字 节 比 请 求 的 字 节 少 ， 因 此 调用 者 应 该 验证 返回 页 面 的 大 小 


2 */ 

区 

4. public MemoryBlock allocatePage (long size, MemoryConsumer consumer) { 

5 全 assert (consumer != null); 

6: assert (consumer.getMode() == tungstenMemoryMode); 

if (size > MAXIMUM PAGE SIZE BYTES) { 

车 throw new IllegalArgumentException( 

局 "Cannot allocate a page with more than " + MAXIMUM PAGE SIZE BYTES 
+ “bytes)s 

10. } 

1 


26.3.3 ”Spark 下 JVM 的 On-Heap 和 Off-Heap 调 优 最 佳 实践 


Java 内 存 分 为 堆 和 栈 等 ， 其 中 堆 由 两 部 分 组 成 : 分 别 是 Old Generation 和 Young 
Generation。Young Generation 又 由 三 部 分 组 成 : 一 个 Eden 区 域 和 两 个 Survivor 区 域 ， 每 次 
放 对 象 的 时 候 ， 都 是 放 入 Eden 区 域 ， 和 其 中 一 个 Survivor 区 域 ， 另 外 一 个 Survivor 区 域 是 
空闲 的 。 
当 Eden 区 域 和 一 个 Survivor 区 域 放 满 了 以 后 〈Spark 运行 过 程 中 产生 的 对 象 实在 太 多 
了 ) ， 就 会 触发 Minor GC， 把 不 再 使 用 的 对 象 从 内 存 中 清空 ， 给 后 面 新 创建 的 对 象 腾 出 内 存 
空间 。 清 理 掉 不 再 使 用 的 对 象 后 ， 将 存活 下 来 的 对 象 还 要 继续 使 用 的 ) ， 放 入 之 前 空闲 的 
那个 Survivor 区 域 中 。 这 里 可 能 会 出 现 一 个 问题 。 默 认 Eden、Survivorl 和 Survivor2 的 内 存 
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占 比 是 8 : 1 ; 1。 如 果 存 活 下 来 的 对 象 是 1.5, 一 个 Survivor 区 域 放 不 下 ,此 时 就 可 能 通过 JVM 
的 担保 机 制 〈 不 同 JVM 版 本 可 能 对 应 不 同 的 行为 ) ， 将 多 余 的 对 象 直接 放 入 老年 代 。 

如 果 JVM 内 存 不 够 大 ， 可 能 导致 频繁 的 年 轻 代 内 存 满 溢 ， 频 繁 地 进行 Minor GC。 频 繁 
地 Minor GC 会 导致 短 时 间 内 ， 有 些 存 活 的 对 象 多 次 垃圾 回收 都 没有 回收 掉 ， 导 致 这 种 短 生 
命 周 期 (其 实 不 一 定 是 要 长 期 使 用 的 ) 对 象 ， 年 龄 过 大 及 垃圾 回收 次 数 太 多 还 没有 回收 ， 而 
将 这 些 对 象 移 到 老年 代 。 老 年 代 中 可 能 会 因为 内 存 不 足 ， 转 积 一 大 堆 短 生命 周期 的 ， 本 来 
该 在 年 轻 代 中 的 、 可 能 马上 就 要 被 回收 掉 的 对 象 。 此 时 可 能 导致 老年 代 频繁 满洲 ， 频 繁 进行 
Full GC (全 局 /全 面 垃圾 回收 )，Full GC 会 去 回收 老年 代 中 的 对 象 。 

Full GC 算法 的 设计 是 针对 老年 代 中 的 对 象 数量 很 少 ,满洲 进行 Full GC 频率 很 小 的 情况 ， 
采取 了 不 太 复杂 ， 但 是 耗费 性 能 和 时 间 的 垃圾 回收 算法 ， 因 此 Full GC 运行 很 慢 。Full GC/ 
Minor GC， 无 论 是 快 ， 还 是 慢 ， 都 会 导致 JVM 的 工作 线程 停止 工作 。 简 言 之 ，GC 的 时 候 ， 
Spark 停止 工作 了 ， 等 着 垃圾 回收 结束 。 

内 存 不 足 时 存在 的 问题 如 下 。 

口 频繁 Minor GC， 也 会 导致 Spark 频繁 停止 工作 。 

口 老年 代 转 积 大 量 活跃 对 象 ( 短 生命 周期 的 对 象 )》， 导 致 频繁 Full GC，Full GC 时 间 

很 长 ， 短 则 数 十 秒 ， 长 则 数 分 钟 ， 甚 至 数 小 时 。 可 能 导致 Spark 长 时 间 停 止 工作 。 

口 严重 影响 Spark 的 性 能 和 运行 的 速度 。 

Spark 下 JVM 的 On-Heap 和 Off-Heap 调 优 方式 : 

Spark 中 的 堆 内 存 被 划分 成 两 块 :一 块 是 专门 用 来 给 RDD 的 Cache、Persist 操作 进行 RDD 
数据 缓存 用 的 ; 另 一 块 是 用 来 给 Spark 算 子 函数 的 运行 使 用 的 ， 存放 函数 中 自己 创建 的 对 象 。 
默认 情况 下 ， 给 RDD Cache 操作 的 内 存 占 比 是 0.6，60% 的 内 存 都 给 Cache 操作 了 。 

如 果 某 些 情况 下 ，Cache 不 是 那么 的 紧张 ， Task 算 子 函数 中 创建 的 对 象 过 多 , 然而 内 存 
又 不 太 大 ， 导 致 频繁 地 Minor GC， 甚 至 频繁 Full GC， 导 致 Spark 频繁 地 停止 工作 ， 性 能 影 
响 会 很 大 。 针 对 这 种 情况 ,可 以 在 Spark We bUI 页 面 (如 在 YARN 中 运行 , 可 以 通过 YARN 
的 Web 页 面 ) 查看 Spark 作业 的 运行 统计 ， 从 Web UI 页 面 中 一 层 一 层 点 击 进去 可 以 看 到 每 
个 Stage 的 运行 情况 ， 包 括 每 个 Task 的 运行 时 间 、GC 时 间 等 。 如 果 发 现 GC 太 频 繁 ， 时 间 
太 长 。 此 时 就 可 以 适当 调节 这 个 比例 。 

降低 Cache 操作 的 内 存 占 比 ， 可 使 用 Persist 操作 ， 选 择 将 一 部 分 缓存 的 RDD 数据 写 入 
磁盘 ， 或 者 使 用 序列 化 方式 ， 配 合 Kryo 序列 化 类 ,减少 RDD 缓存 的 内 存 占 用 。 降 低 Cache 
操作 内 存 占 比 ， 对 应 的 算 子 函数 的 内 存 占 比 就 提升 了 。 这 时 ， 可 能 降低 Minor GC 的 频率 ， 
同时 减少 Full GC 的 频率 ， 对 Spark 性 能 的 提升 是 有 一 定 帮 助 的 。 

调 优 方 式 : 让 Task 执行 算 子 函数 时 ， 有 更 多 的 内 存 可 以 使 用 。 

StaticMemoryManager.scala 的 源码 的 spark.storage.memoryFraction 默认 配置 是 0.6: 








a 





2 private def getMaxStorageMemory (Conf: SparkConf): Long = { 
Val systemMaxMemory = conf.getLong("spark.testing.memory", Runtime. 
getRuntime .maxMemory) 
val memoryFraction = conf.getDouble ("spark.storage.memoryFraction", 0.6) 
val safetyFraction = conf.getDouble ("spark.storage.safetyFraction", 0.9) 
(systemMaxMemory * memoryFraction * safetyFraction) .toLong 

} 


DL 


[= 
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调整 以 后 的 参数 设置 方式 如 下 ， 将 Spark 的 存储 空间 从 0.6 调整 为 0.5: 

2 必 SparkContext () .set ("Spark.storage.memoryFraction", "0.5") 

数据 量 很 大 时 ， 导 致 一 个 Stage 内 存 溢出 而 挂 掉 ，Block Manager 也 没有 了 ， 使 得 后 面 的 
Stage 取 不 到 数据 而 出 错 ， 如 Shuffle file cannot fnd，Executor Task lost，Out Of Memory (内 
存 溢出 ) 。 

解决 方式 : 修改 堆 外 内 存 最 大 值 。 

--conf spark.yarn.executor.memoryoverhead=2048 

有 时 Task 需要 的 数据 在 其 他 节点 , 此 时 需要 去 拉 取 数据 , 而 刚好 此 时 那个 节点 正在 执行 
垃圾 回收 而 无 法 回应 数据 , 导致 连接 超时 (默认 是 60s) 而 出 现 以 下 错误 : uuid (dsfsfd-2342vs-- 
sdf--sdfsd) not found、file lost。 

此 时 应 该 增加 连接 等 待 时 间 。 

1. --conf Spark.core.Connection.ack.wait.timeout=300 


例如 ， 提 交 Spark 应 用 程序 的 参数 配置 。 











. /usr/local/spark/bin/spark-submit \ 

. --class com.ibeifeng.sparkstudy.wordcount \ 

. --num-executors 80 \ 

. --driver-memory 6g \ 

. --executor-memory 6g \ 

. —--executor-cores 3 \ 

. --master yarn-cluster \ 

. --queue root.default \ 

. --conf spark.yarn.executor.memoryoverhead=2048 \ 
--cConf spark.core.Connection.ack.wait.timeout=300 \ 


1 
区 
| 
4 
3 
6 
yh 
8 
9 
1 
11. /usr/local/spark/spark.jar \ 
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26.4 ”Spark 下 的 JVM GC 导致 的 Shuffle 拉 取 文件 失败 
及 调 优 方案 


本 节 讲 解 Spark 下 的 JVM GC 导致 的 Shuffle 拉 取 文件 失败 原因 解密 ;Spark 下 的 JVM GC 
导致 的 Shuffle 拉 取 文件 失败 时 候 调 优 。 


26.4.1 Spark 下 的 JVM GC 导致 的 Shuffle 拉 取 文件 失败 原因 解密 


Spark 运行 时 有 时 出 现 Shuffle 拉 取 文件 失败 的 情况 ,如 Shuffle output file lost。 真正 的 原 
因 是 GC 导致 的 ! 如 果 GC 尤其 是 Full GC 产生 ， 通 常会 导致 线程 停止 工作 ， 这 个 时 候 下 一 
个 Stage 的 Task 在 默认 情况 下 就 会 重 试 来 获取 数据 。 一 般 重 试 3 次 ， 每 次 重 试 的 时 间 为 5s。 
也 就 是 说 ， 默 认 情况 下 ，15s 内 如 果 还 是 无 法 抓 到 数据 ， 就 会 出 现 Shuffle output file lost 等 情 
况 ， 进 而 导致 Task 重 试 ， 甚 至 会 导致 Stage 重 试 ， 最 严重 的 是 会 导致 App 失败 ; 在 这 个 时 候 
首先 就 要 采用 高 效 的 内 存 数据 结构 和 序列 化 机 制 、JVM 调 优 来 减少 Full GC 的 产生 。 
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26.4.2 Spark 下 的 JVM GC 导致 的 Shuffle 拉 取 文件 失败 时 调 优 


Spark 下 的 JVM GC 导致 的 Shuffle 拉 取 文件 失败 时 调 优 措施 如 下 。 

(1) 在 Shuffle 的 时 候 ，Reducer 端 获取 数据 会 有 一 个 指定 大 小 的 缓存 空间 ， 在 内 存 足 够 
大 的 情况 下 ， 可 以 适当 地 增 大 该 缓存 空间 ， 否 则 会 Spill 到 磁盘 上 ， 影 响 效率 。 此 时 可 以 调整 
( 增 大 ) spark.reducer.maxSizeInFlight 参数 。 

(2) 在 ShuffleMapTask 端 通常 也 会 增 大 Map 任务 的 写 磁盘 的 缓存 , 默认 情况 下 是 32KB， 
即 spark.shuffle.file.buffer 32k。 

(3) 调整 获取 Shuffle 数据 的 重 试 次 数 ， 默 认 是 3 次 ， 通 常 建议 增 大 重 试 次 数 。 

(4) 调整 获取 Shuffle 数据 重 试 的 时 间 间 隔 ， 默 认为 5s， 即 spark.shuffle.io.retryWait Ss， 
强烈 建议 增 大 该 时 间 间 隔 。 

(5) 在 reducer 端 Aggregation 的 时 候 ， 默 认 是 20% 的 内 存 用 来 Aggregation， 如 果 超 出 这 
个 大 小 ， 就 会 溢出 到 磁盘 上 ， 建 议 调 大 百分比 来 提高 性 能 。 





26.5 Spark 下 的 Executor 对 JVM 堆 外 内 存 连 接 等 待 时 长 调 优 


本 节 讲 解 Spark 下 的 Executor 对 JVM 堆 外 内 存 连 接 等 待 时 长 调 优 , 内 容 包括 : Executor 
对 堆 外 内 存 等 待 工 作 过 程 ，Executor 对 堆 外 内 存 等 待 时 长 调 优 。 


26.5.1 ”Executor 对 堆 外 内 存 等 待 工 作 过 程 


有 时 如 果 Spark 作业 处 理 的 数据 量 特别 大 , 如 几 亿 数 据 量 , Spark 作业 运行 时 不 时 地 报错 ， 
如 Shuffle file cannot find、Executor Task lost、Out Of Memory (内 存 溢出 ) 等 。 可 能 是 Executor 
的 堆 外 内 存 不 太 够 用 ， 导 致 Executor 在 运行 的 过 程 中 内 存 溢出 ， 而 后 续 的 Stage 的 Task 运行 
时 需 从 一 些 Executor 中 去 拉 取 Shuffle map output 文件 ， 如 果 此 时 Stage0 的 Executor 挂 了 ， 
Block Manager 也 没有 了 ，Stagel 的 Executor 的 Task 虽然 通过 Driver 的 MapOutputTrakcer 
获取 到 了 自己 数据 的 地 址 ， 但 是 去 Executor 的 Block Manager 是 获取 不 到 数据 的 ， 可 能 会 报 
Shuffle output file not found、DAGScheduler resubmitting Task、Executor lost 等 各 种 错误 ， 直 
到 挂 掉 ， 反 复 挂 掉 几 次 ， 反 复 报错 几 次 ，Spark 作业 彻底 崩溃 。 

上 述 情况 下 , 就 可 以 去 考虑 调节 一 下 Executor 的 堆 外 内 存 。 也 许 就 可 以 避免 报错 ; 此 外 ， 
有 时 堆 外 内 存 调节 得 比较 大 ， 对 于 性 能 来 说 ， 也 会 带 来 一 定 的 提升 。 

默认 情况 下 ， 堆 外 内 存 的 上 限 为 300MB。 真 正 处 理 大 数据 的 时 候 ， 这 里 都 会 出 现 问题 ， 
导致 Spark 作业 反复 崩溃 ， 无 法 运行 ， 此 时 就 会 去 调节 这 个 参数 到 至 少 1GB (1024MB ) ， 
甚至 2GB、4GB。 通 常 这 个 参数 调 上 去 以 后 ， 就 会 避免 掉 某 些 JVM OOM 的 异常 问题 ， 同 时 
会 让 整体 Spark 作业 的 性 能 得 到 较 大 提升 。 

解决 方式 : 修改 堆 外 内 存 最 大 值 。 


* --conf spark.yarn.executor.memoryoverhead=2048 





。906 。 


第 26 章 ”Spark 下 JVM 性 能 调 优 最 佳 实 践 








26.5.2 ”Executor 对 堆 外 内 存 等 待 时 长 调 优 


Shuffle 的 时 候 ，Task 需 从 其 他 节点 拉 取 数据 ， 如果 刚好 此 时 那个 节点 正在 执行 垃圾 回收 
而 无 法 回应 数据 ,导致 连接 超时 (默认 为 60s) 出 现 以 下 错误 : uuid (dsfsfd-2342vs -sdf_sdfsd) 
not found、file lost 等 。 这 种 情况 下 ， 可 能 是 有 数据 的 Executor 在 运行 JVM GC 垃圾 回收 ， 
所 以 在 拉 取 数据 的 时 候 建立 不 了 连接 ,然后 超过 默认 60s 以 后 直接 宣告 失败 。 如 果 报 错 几 次 ， 
几 次 都 拉 取 不 到 数据 ， 可 能 会 导致 DAGScheduler 反复 提交 几 次 Stage; 或 TaskScheduler 反 
复 提交 几 次 Task， 大 大 延长 Spark 作业 的 运行 时 间 ， 最 终 可 能 导致 Spark 作业 的 崩溃 。 
Executor 对 堆 外 内 存 等 待 时 长 的 问题 ， 可 以 考虑 调节 连接 的 超时 时 长 。 


1. --conf spark.core.Connection.ack.wait.timeout=300 














全 注意 这 里 的 配置 需 在 Spark-Submit 脚本 里 面 使 用 --conf 的 方式 去 添加 ， 而 不 是 在 Spark 
作业 代码 中 使 用 new SparkConfO.set(O 的 方式 去 设置 .SparkConfO.setO 的 方式 没有 起 
作用 。 


/usr/local/spark/bin/spark-submit \ 

--class com.ibeifeng.sparkstudy.wordcount \ 

--num-executors 80 \ 

--driver-memory 6g \ 

--executor-memory 6g \ 

--executor-cores 3 \ 

--master yarn-cluster \ 

--queue root.default \ 

--conf spark.yarn.executor.memoryoverhead=2048 \ 
。--conf spark.core.Connection.ack.wait.timeout=300 \ 
. /usr/local/spark/spark.jar \ 
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26.6 Spark 下 的 JVM 内 存 降低 Cache 内 存 占 比 的 调 优 


本 节 讲 解 Spark 下 的 JVM 内 存 降 低 Cache 内 存 占 比 的 调 优 ， 内 容 包括 : 
口 什么 时 候 需 要 降低 Cache 的 内 存 占用 。 
口 降低 Cache 的 内 存 占 比 调 优 最 佳 实践 。 


26.6.1 什么 时 候 需要 降低 Cache 的 内 存 占用 


Spark 中 的 堆 内 存 划分 如 下 。 
口 storageMemory: RDD 的 Cache、Persist 操作 进行 RDD 数据 缓存 使 用 ; 默认 情况 下 ， 
RDD Cache 操作 的 内 存 占 比 是 0.6，60% 的 内 存 都 给 了 Cache 操作 。 
口 shufleMemory: Spark 算 子 函数 的 运行 使 用 ， 存 放 函 数 中 自己 创建 的 对 象 。 
如 果 某 些 情况 下 ，Cache 不 是 那么 紧张 ， Task 算 子 函数 中 创建 的 对 象 过 多 ， 然 而 内 存 又 
不 太 大 ， 导 致 频繁 的 Minor GC， 甚 至 频繁 Full GC， 导 致 Spark 频繁 地 停止 工作 ， 性 能 影响 
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会 很 大 。 针 对 这 种 情况 ， 可 以 在 Spark Web UI 页 面 (如 在 YARN 中 运行 ， 可 以 通过 YARN 
的 Web 页 面 ) 查看 Spark 作业 的 运行 统计 ， 从 Web UI 页 面 中 一 层 一 层 点 击 进去 可 以 看 到 每 
个 Stage 的 运行 情况 ， 包 括 每 个 Task 的 运行 时 间 、GC 时 间 等 。 如 果 发 现 GC 太 频 繁 ， 时 间 
太 长 ， 就 可 以 适当 调节 这 个 比例 。 


26.6.2 ”降低 Cache 的 内 存 占 比 调 优 最 佳 实践 








降低 Cache 操作 的 内 存 占 比 调 优 最 佳 实践 。 

口 可 使 用 Persist 操作 ， 选 择 将 一 部 分 缓存 的 RDD 数据 写 入 磁盘 。 

口 或 者 使 用 序列 化 方式 ， 配 合 Kryo 序列 化 类 ， 减 少 RDD 的 缓存 的 内 存 占用 。 

口 降低 Cache 操作 内 存 占 比 ， 提 升 对 应 的 算 子 函数 的 内 存 占 比 。 

调 优 方式 : 调整 spark.storage.memoryFraction 参数 。spark.storage.memoryFraction 默认 配 
置 参 数 是 0.6。 

调整 以 后 的 参数 设置 方式 如 下 ， 如 将 Spark 的 存储 空间 从 0.6 调整 为 0.5。 


:号 SparkContext () .set ("Spark.storage.memoryFraction", "0.5") 
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本 章 讲解 Spark 五 大 子 框架 调 优 最 佳 实践 。27.1 节 讲 解 Spark SQL 调 优 原 理 调 优 参数 及 
调 优 最 佳 实践 ，27.2 节 讲 解 Spark Streaming 调 优 原 理 及 调 优 最 佳 实践 ，27.3 节 讲 解 Spark 
GraphX 调 优 原理 及 调 优 最 佳 实践 ，27.4 节 讲解 Spark ML 调 优 原理 及 调 优 最 佳 实践 ，27.5 节 
讲解 SparkR 调 优 原理 及 调 优 最 佳 实践 。 


27.1 Spark SQL 调 优 原理 及 调 优 最 佳 实践 


本 节 讲 解 Spark SQL 调 优 原理 ;以 及 Spark SQL 调 优 参数 及 调 优 最 佳 实践 。 
27.1.1 Spark SQL 调 优 原理 


Spark SQL 是 Spark 用 来 处 理 结构 化 数据 的 一 个 模块 。 与 基础 的 Spark RDD API 不 同 ， 
Spark SQL 提供 了 更 多 数据 与 执行 计算 的 信息 ， 在 其 实现 中 会 使 用 这 些 额 外 信息 进行 优化 。 
可 以 使 用 SQL 语句 和 Dataset API 与 Spark SQL 模块 交互 。 无 论 使 用 哪 种 语言 或 API 来 执 
行 计算 ， 都 会 使 用 相同 的 引擎 。 可 以 选择 熟悉 的 语言 (支持 Scala、Java、R、Python) 以 及 
在 不 同 场景 下 选择 不 同 的 方式 进行 计算 。 

(1) SQL: 一 种 使 用 Spark SQL 的 方式 是 使 用 SQL。Spark SQL 也 支持 从 Hive 中 读 取 
数据 。 使 用 编码 方式 执行 SQL 将 会 返回 一 个 DataseUDataFrame。 也 可 以 使 用 命令 行 、 
JDBC/ODBC 与 Spark SQL 进行 交互 。 

(2) Datasets 和 DataFrames: Dataset 是 一 个 分 布 式 数据 集合 。Dataset 是 自 Spark 1.6 
开始 提供 的 新 接口 , 能 同时 享受 到 RDD 的 优势 (Dataset 是 强 类 型 , 能 使 用 强大 的 lambda 函 
数 ) 以 及 Spark SQL 优化 过 的 执行 引擎 。Dataset 可 以 从 JVM 对 象 创建 而 来 ， 并且 可 以 使 
用 各 种 transform 操作 (如 map、flatMap、filter 等 ) 。 目 前 ，Dataset API 支持 Scala 和 Java。 
Python 和 暂 不 支持 Dataset API.。 不 过 , 得 益 于 Python 的 动态 属性 , 可 以 享受 到 许多 DataSet API 
的 益处 。R 也 是 类 似 情况 。 

DataFrame 是 具有 名 字 的 列 , 概念 上 相当 于 关系 数据 库 中 的 表 或 R/Python 下 的 data frame， 
但 有 更 多 的 优化 。DataFrames (Dataset 亦 如 此 ) 可 以 从 很 多 数据 中 构造 , 例如 ， 结构 化 文件 、 
Hive 中 的 表 、 数 据 库 、 已 存在 的 RDD。DataFrame API 可 在 Scala、Java、Python 和 及 中 使 
用 。 在 Scala 和 Java 中 ，DataFrame 由 一 个 元 素 为 Row 的 Dataset 表示 。 在 Scala API 中 ， 
DataFrame 只 是 Dataset[Row] 的 别名 。 在 Java API 中 ， 类 型 为 Dataset<Row>。 























1. Spark SQL 运行 架构 





类 似 于 关系 型 数据 库 ，SparkSQL 也 是 语句 ， 由 Projection (al，a2，a3) 、Data Source 
(tableA)、Filter(condition) 组 成 , 分 别 对 应 SQL 查询 过 程 中 的 Result、 Data Source、 Operation。 
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也 就 是 说 ，SQL 语句 是 按 Result 一 Data Source 一 Operation 的 次 序 描述 的 ， 如 图 27-1 所 示 。 






































影 数据 源 过 小 
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SELECT al,a2,a3.FROM tableA Where condition 
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图 27-1 SQL 语句 的 表达 顺序 与 SQL 实际 执行 顺序 的 对 比 图 











执行 SparkSQL 语句 的 顺序 为 : 

(1) 对 读 入 的 SQL 语句 进行 解析 (Parse) ， 分 辨 出 SQL 语句 中 哪些 词 是 关键 词 ( 如 
SELECT、FROM、WHERE) ， 哪 些 是 表达 式 ， 哪 些 是 Projection， 哪 些 是 Data Source 等 ， 
从 而 判断 SQL 语句 是 否 规范 。 

(2) 将 SQL 语句 和 数据 库 的 数据 字典 (如 列 、 表 、 视 图 等 ) 进行 绑 定 (Bind) ， 如 果 相 
关 的 Projection、Data Source 等 都 存在 ， 就 表示 这 个 SQL 语句 是 可 以 执行 的 。 

(3) 一 般 的 数据 库 会 提供 几 个 执行 计划 ， 这 些 计 划一 般 都 有 运行 统计 数据 ， 数 据 库 会 在 
这 些 计 划 中 选择 一 个 最 优 计划 (Optimize〉。 

(4) 计划 执行 (Execute) ， 按 Operation 一 Data Source 一 Result 的 次 序 进行 ， 在 执行 过 程 
中 有 时 甚至 不 需要 读 取 物 理 表 ， 就 可 以 返回 结果 ， 如 重新 运行 刚 运行 过 的 SQL 语句 ， 可 能 直 
接 从 数据 库 的 缓冲 池 中 获取 返回 结果 。 

1) Tree 和 Rule 

SparkSQL 对 SQL 语句 的 处 理 和 关系 型 数据 库 对 SQL 语句 的 处 理 采 用 了 类 似 的 方法 , 首 
先 会 将 SQL 语句 进行 解析 (Parse) ， 然 后 形成 一 个 Tree， 在 后 续 的 (如 绑 定 、 优 化 等 ) 处 
理 过 程 中 都 是 对 Tree 的 操作 ， 而 操作 的 方法 是 采用 Rule, 通过 模式 匹配 ， 对 不 同类 型 的 节点 
采用 不 同 的 操作 。 在 整个 SQL 语句 的 处 理 过 程 中 ，Tree 和 Rule 相互 配合 ， 完 成 了 解析 、 闪 f 
定 (在 SparkSQL 中 称 为 Analysis) 、 优 化 、 物理 计划 等 过 程 , 最 终生 成 可 以 执行 的 物理 计划 。 

(1) Tree。 

Tree 的 相关 代码 定义 在 org.apache.spark.sql.catalyst 中 。 

Logical Plans、Expressions、Physical Operators 都 可 以 使 用 Tree 表示 。 

Tree 的 具体 操作 是 通过 TreeNode 来 实现 的 。 

TreeNode 可 以 使 用 Scala 的 集合 操作 方法 (如 foreach、map、flatMap、collect 等 ) 
进行 操作 。 有 了 TreeNode， 通 过 Tree 中 各 个 TreeNode 之 间 的 关系 ， 可 以 对 Tree 进 
行 遍历 操作 ， 如 使 用 transformDown、transformUp 将 Rule 应 用 到 给 定 的 树 段 ， 然 后 
用 结果 替代 旧 的 树 段 ， 也 可 以 使 用 transformChildrenDown、transformChildrenUp 对 
一 个 给 定 的 节点 进行 操作 ， 通 过 友 代 将 Rule 应 用 到 该 节点 以 及 子 节点 。 

TreeNode 可 以 细 分 成 3 种 类 型 的 Node。 

口 UnaryNode 一 元 节点 ， 即 只 有 一 个 子 节点 ， 如 Limit、Filter 操作 。 

口 BinaryNode 二 元 节点 ， 即 有 左右 子 节点 的 二 又 节点， 如 ion、Union 操作 。 


日 蝇 日 口 








=e 
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本 的 语法 ， 如 果 有 问题 ， 则 下 一 步 直接 不 能 运行 )， 进 - 


口 LeafNode 叶子 节点 ， 没 有 子 节点 的 节点 ， 主 要 用 于 命令 类 操作 ， 如 SetCommand。 

(2) Rule。 

Rule 的 相关 代码 定义 在 org.apache.spark.sql.catalyst.rules 中 。 

口 Rule 在 SparkSQL 的 Analyzer、Optimizer、SparkPlan 等 各 个 组 件 中 都 会 应 用 到 。 

口 Rule 是 一 个 抽象 类 ， 具体 的 Rule 实现 是 通过 RuleExecutor 完成 的 。 凡 需要 处 理 执行 
计划 树 (Analyze 过 程 、Optimize 过 程 、SparkStrategy 过 程 ) ， 实 施 规则 匹配 和 节点 
处 理 的， 都 需要 继承 RuleExecutor[TreeType] 抽 象 类 。RuleExecutor 内 部 提供 了 一 
Seq[Batch]， 里 面 定义 的 是 该 RuleExecutor 的 处 理 步 又。 每 个 Batch 代表 一 套 规则 ， 
配备 一 个 策略 ， 该 策略 说 明了 和 友 代 次 数 〈 一 次 ， 还 是 多 次 ) 。 

口 Rule 通过 定义 Once〈 默 认为 1) 和 FixedPoint， 可 以 对 Tree 进行 一 次 操作 或 多 次 操 
作 〔 如 对 某 些 Tree 进行 多 次 迭代 操作 的 时 候 ， 达 到 FixedPoint 次 数 迭 代 或 达到 前 后 
两 次 的 树 结构 没 变 化 才 停 止 操 作 ， 具 体 参 看 RuleExecutor.apply。 

2) Spark SQL 的 运行 过 程 

接 下 来 看 一 下 Spark SQL 的 运行 过 程 。Spark SQL 的 运行 架构 如 图 27-2 所 示 。 
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转换 为 执行 准备 
RDD 执行 


图 27-2 ”Spark SQL 的 运行 架构 


通过 初步 解析 不 同 来 源 的 数据 变 为 UnresolvedLogical Plan( 此 过 程 会 提取 关键 字 , 检查 基 
- 步 解析 语法 树 生成 Logical Plan， 进 


行 CombineFilters、CombineLimits 等 优化 策略 ， 产 生 Physical Plan， 把 需要 执行 的 操作 转换 
为 Spark 可 以 真正 执行 的 RDD。 


先 概括 一 下 ， 其 执行 流程 是 
Parse SQL -> Analyze Logical Plan -> Optimize Logical Plan -> Generate Physical Plan -> 


Prepareed Spark Plan -> Execute SQL -> Generate RDD 。 


SQLContext 里 对 SQL 的 解析 和 执行 流程 如 下 。 
(1) 第 一 步 Parse SQL (SQL: String)，simple SQL parser 做 词法 语法 解析 ， 生 成 


LogicalPlan。 


(2) 第 二 步 Analyzer(logicalPlan), 把 做 完 词法 语法 解析 的 执行 计划 进行 初步 分 析 和 映射 。 





目前 ，SQLContext 内 的 Analyzer 由 Catalyst 提供 ， 源 码 定义 如 下 。 


Spark 2.1.1 版 本 的 SessionState.scala 的 源码 如 下 。 


;人 /** 
* 解 析 仍 未 解析 属性 和 关系 的 逻辑 查询 计划 分 析 器 


二 二 二 








2 
3 
4. 
a 
6 
了 
8. 
号 5 
Ds 
到 


LZ 
3 
14. 
5 
16. 


$y 


lazy val analyzer: Analyzer = { 
new Analyzer (catalog, conf) { 
override val extendedResolutionRules = 
AnalyzeCreateTable (sparkSession) :: 
PreprocessTableInsertion(conf) :: 
new FindDataSourceTable (sparkSession) :: 
DataSourceAnalysis (conf) :: 
(if (conf.runSQLonFile) new ResolveDataSource (sparkSession) :: Nil 
else Nil) 


override val extendedCheckRules = 
Seq (PreWriteCheck (conf, catalog), HiveOnlyCheck) 
} 
} 


Spark 2.2.0 版 本 的 SessionState.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 
Analyzer 的 实例 不 在 SessionState.scala 中 新 建 ， 而 在 构建 SessionState 类 时 已 经 实例 化 ， 作 为 
参数 传 入 SessionState。 


private[sql] class SessionState( 
sharedState: SharedState， 
val conf: SQLConf, 
val experimentalMethods: ExperimentalMethods, 
val functionRegistry: FunctionRegistry, 
val udfRegistration: UDFRegistration, 
val catalog: SessionCatalog, 
val sqlParser: ParserInterface， 
val analyzer: Analyzer, 
val optimizer: Optimizer, 
val planner: SparkPlanner, 
val streamingQueryManager: StreamingQueryManager, 
val listenerManager: ExecutionListenerManager, 
val resourceLoader: SessionResourceLoader, 
createQueryExecution: LogicalPlan => QueryExecution, 
createClone: (SparkSession, SessionState) => SessionState) { 


其 中 ，SessionState 在 构建 SparkSession 时 进行 初始 化 ，SessionState 是 跨 会 话 隔离 状态 ， 
包括 SQL 配置 、 临 时 表 、 已 注册 功能 ， 以 及 一 切 接受 [org.apache.spark.sqlLinternal.SQLConfl 
的 配置 内 容 。 如 果 parentSessionState 不 为 室 ， SessionState 将 从 父 节点 复制 。 这 是 Spark 内 


部 使 用 。 


Spark 2.2.0 版 本 的 SparkSession.scala 的 源码 如 下 。 


:8 
区 
3 
4. 
入 
1 


@InterfaceStability.Unstable 


@transient 
lazy val sessionState: SessionState = { 
parentSessionstate 
.map( .clone (this)) 
-getOrElse { 
SparkSession.instantiateSessionState( 
SparkSession.sessionStateClassName (sparkContext .conf), 
self) 
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其 中 ，instantiateSessionState 是 辅助 方法 来 创建 一 个 基于 配置 className 的 SessionState 
实例 ， 结 果 是 SessionState， 或 者 是 基于 Hive 的 SessionState。 
SparkSession scala 的 instantiateSessionState 方法 的 源码 如 下 。 


3 

2 private def instantiateSessionState ( 

35 className: String, 

4. sparkSession: SparkSession): SessionState = { 

S56 | 

CE // 触 发 new [Hive]SessionStateBuilder (SparkSession, Option[SessionState] 

js val clazz = Utils.classForName (className) 

所 Val ctor = clazz.getConstructors.head 

9 ctor .newInstance (sparkSession, None) .asInstanceOf [BaseSession 

StateBuilder]. build() 

可 0 jeatcbt 

RE case NonFatal (e) => 

2 throw new IllegalArgumentException(s"Error while instantiating 
'$className':", e) 

3. } 

14. 1} 

LS ee 


其 中 ， 调 用 ctor.newInstance(sparkSession, None).asInstanceOf[BaseSessionStateBuilder]. 
build 方法 ， 构 建 Analyzer 实例 对 象 。 
BaseSessionStateBuilder.scala 的 源码 如 下 。 


:es 

2. // 解 析 仍 未 解析 属性 和 关系 的 逻辑 查询 计划 分 析 器 。 说 明 : 这 取决 于 conf 和 catalog 字段 
3. protected def analyzer: Analyzer = new Rnalyzer(catalog，conf) { 
override val extendedResolutionRules: Seq[Rule[LogicalPlan]] = 
Se new FindDataSourceTable (session) +: 

GE new ResolveSQLOnFile (session) +: 

Te customResolutionRules 

8 

9 override val postHocResolutionRules: Seq[Rule[LogicalPlan]] = 
O08 PreprocessTableCreation(session) +: 

了 PreprocessTableInsertion (Conf) +: 

2 DataSourceRnalysis (Conf) +: 

EE 演 customPostHocResolutionRules 

14. 

de override val extendedCheckRules: Seq[LogicalPlan => Unit] = 
16. PreWriteCheck +: 

3 HiveOnlyCheck +: 

48 customCheckRules 

To 

Ue 

21. def build(): SessionState = { 

这 new SessionState ( 

2 session.sharedSstate, 

这 conf, 

258 experimentalMethods, 

26% functionRegistry, 

221. udfRegistration, 

Bi catalog, 

29、 sqlParser, 

3S0. analyzer, 

SS. optimizer, 


0 








32> 
33; 
34. 
35 
36, 
S37 
38. 
39 


planner, 
streamingQueryManager, 
listenerManager, 
resourceLoader, 
createQueryExecution, 
createClone) 


Analyzer 传 入 的 catalog 为 SessionCatalog，catalog 是 用 来 注册 table 和 查询 relation 的 。 
Spark 2.1.1 版 本 的 SessionState.scala 的 源码 如 下 。 


1 


Foc~wawmcw 


口 ， 


/** 


* 管 理 表 和 数据 库 状态 的 内 部 目录 
ba 


lazy val catalog = new SessionCatalog( 


sparkSession.sharedState.externalCatalog, 
sparkSession.sharedState.globalTempViewManager, 
functionResourceLoader, 

functionRegistry, 

conf, 

newHadoopConf ()) 


Spark 2.2.0 版 本 的 BaseSessionStateBuilder.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 


特点 


mo 


口 catalog 的 实例 不 在 SessionState.scala 中 新 建 , 而 在 构建 SessionState 类 时 已 经 实例 化 ， 


FF ownamwm 必 wm 
Po: i 


> 
WW 


14. 


作为 参数 传 入 SessionState。 构建 SparkSession 时 调用 instantiateSessionState 进行 初 
始 化 ，instantiateSessionState 方法 调用 ctor.newInstance(sparkSession,None).asInstance 
Of[BaseSessionStateBuilder] build 方法 ， 在 BaseSessionStateBuilder 类 初始 化 时 构建 
SessionCatalog 实例 ， 然 后 赋值 给 catalog。 

构建 SessionCatalog 实例 。SessionCatalog 管理 表 和 数据 库 状 态 的 目录 catalog。 如 果 
预先 存在 目录 catalog， 则 该 目录 catalog 的 状态 〈 临 时 表 和 当前 数据 库 ) 将 被 复制 到 
新 目录 catalog 中 。 说 明 : 这 取决 于 conf、functionRegistry 及 sqlParser 字段 。 


protected lazy val catalog: SessionCatalog = { 


val catalog = new SessionCatalog( 
session.sharedState .externalCatalog， 
session.sharedState.globalTempViewManager, 
functionRegistry, 
conf, 
SessionState .newHadoopConf (session.sparkContext .hadoopConfiguration, 
conf), 
sqlParser, 
resourceLoader) 
parentstate.foreach( .catalog.copyStateTo (catalog) ) 
catalog 


其 中 ，FunctionRegistry 是 注册 函数 ， 由 于 存在 lookupFunction 方法 ， 所 以 该 analyzer 支 
持 Function 注册 ， 即 UDF 自 定义 函数 。 
FunctionRegistry.scala 的 源码 如 下 。 


.914 
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trait FunctionRegistry { 


2 

3 final def registerFunction(name: String, builder: FunctionBuilder): 
Uait = 4 

4. registerFunction (name, new ExpressionInfo (builder.getClass.getCanonicalName, 

name), builder) 

Ss } 

6 

可 def registerFunction (name: String, info: ExpressionInfo, builder: 
FunctionBuilder): Unit 

8 . 

必 @throws [AnalysisException] ("If function does not exist") 

10. def lookupFunction (name: String, children: Seq[Expression]) : Expression 


Analyzer 内 定义 了 的 逻辑 计划 解析 规则 如 下 。 
Spark 2.1.1 版 本 的 Analyzer.scala 的 源码 如 下 。 











1 lazy val batches: Seq[Batch] = Seq( 
2 Batch ("Substitution", fixedPoint, 
3 CTESubstitution, 

4. WindowsSubstitution, 

5: EliminateUnions, 

-全 new SubstituteUnresolvedordinals (conf)), 
ye Batch ("Resolution", fixedPoint, 
Be ResolveTableValuedFunctions :: 
ResolveRelations 

dB ResolveReferences :: 

本 各 ResolveCreateNamedStruct :: 

3 ResolveDeserializer :: 

:局 ResolveNewInstance :: 

14. ResolveUpCast :: 

:让 ResolveGroupingAnalytics :: 

Gs ResolvePivot :: 

Pls ResolveOrdinalInOrderByAndGroupBy :: 
18. ResolveMissingReferences :: 

1 ExtractGenerator :: 

20e ResolveGenerate :: 

2 ResolveFunctions :: 

2 ResolveAliases : 

23. ResolveSubquery :: 

小 光 ResolveWindowOrder 

25. ResolveWindowFrame 

26. ResolveNaturalAndUsingJoin :: 
Ze ExtractWindowExpressions :: 

28. GlobalAggregates :: 

2Z9. ResolveAggregateFunctions :: 
30e TimeWindowing :: 

31. ResolveInlineTables :: 

2 TypeCoercion.typeCoercionRules ++ 
33> extendedResolutionRules : *), 
34. Batch ("Nondeterministic", Once, 

六 全 全 PullOoutNondeterministic), 

1 Batch ("UDF", Once, 

二 可 HandleNullInputsForUDF), 

38. Batch("FixNullability", Once, 

395 FixNullability), 

40. Batch("Cleanup", fixedPoint, 

二 CleanupAliases) 

入 


全 3 
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Spark 2.2.0 版 本 的 Analyzer.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 
新 增 Hints 提示 策略 。 

新 增 Simple Sanity Check 简单 检查 策略 。 

新 增 Post-Hoc Resolution 事后 解决 策略 。 

新 增 Subquery 子 查 询 策略 。 


Batch("Hints", fixedPoint, 
new ResolveHints.ResolveBroadcastHints (conf), 
ResolveHints.RemoveAllHints), 
Batch ("Simple Sanity Check", Once, 
LookupFunctions), 


日 日 蝇 司 


S ResolveAggAliasInGroupBy :: 


comawm 必 wm 


10. Batch("Post-Hoc Resolution", Once, postHocResolutionRules: _*) 
es Batch ("View", Once, 
AliasViewChild(conf)), 


了 


14. Batch("Subquery", Once, 
UpdateOuterReferences), 


(3) 从 第 二 步 得 到 的 是 初步 的 logicalPlan， 接 下 来 是 optimizer(plan)。Optimizer 里 面 也 
定义 了 儿 批 规则 ， 会 按 序 对 执行 计划 进行 优化 操作 。 
Spark 2.1.1 版 本 的 Optimizer.scala 的 源码 如 下 。 


Ee 
# 抽 象 类 继承 的 所 有 优化 器 ， 包 含 标准 的 批 处 理 〈 扩 展 优化 器 可 以 重 写 ) 
人 下 
3 
4. abstract class Optimizer(sessionCatalog: SessionCatalog, ConEs 
CatalystConf) 
加 extends RuleExecutor[LogicalPlan] { 
6 
y protected val fixedPoint = FixedPoint (conf.optimizerMaxIterations) 
8 
局 def batches: Seq[Batch] = { 
10.  // 严 格 说 来 ， Finish Analysis 中 的 一 些 规则 不 是 优化 器 规则 ， 更 多 地 属于 分 析 ， 这 是 


// 因 为 它们 需要 的 正确 性 (如 ComputeCurrentTime) 。 然 而 ,因为 我 们 也 使 用 analyzer 
// 的 规范 化 查询 〈 如 视图 定义 ) ， 故 无 需 消除 子 查询 或 计算 分 析 当 前 时 间 


Te Batch ("Finish Analysis", Once, 

hs EliminateSubqueryAliases, 

车 ReplaceExpressions, 

14. ComputeCurrentTime, 

5 GetCurrentDatabase (sessionCatalog), 

ns RewriteDistinctAggregates) :: 

了 < HUN/ 
18.  // 优 化 器 规则 从 这 里 开始 : 

9 Up 


20. // 在 开始 主要 的 优化 规则 前 首先 调用 CombineUnions， 因 为 它 可 以 减少 闪 代 次 数 ， 其 
// 他 规则 可 以 增加 /移动 两 个 相 邻 的 联合 运算 符 之 间 的 额外 运算 符 


2 // 在 批 处 理 规则 Batch ("Operator Optimizations") 再 次 调用 CombineUnions， 
// 因 为 其 他 规则 可 能 使 两 个 独立 的 联合 操作 符 相 邻 
2 Batch ("Union", Once, 


= 
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24. 
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2 
30. 
SE 
32. 
335 
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CombineUnions) :: 

Batch ("Subquery", Once, 
OptimizeSubqueries) :: 

Batch ("Replace Operators", fixedPoint, 
ReplaceIntersectWithSemiJoin, 
ReplaceExceptWithAntiJoin, 
ReplaceDistinctWithAggregate) :: 

Batch ("Aggregate", fixedPoint, 
RemoveLiteralFromGroupExpressions, 
RemoveRepetitionFromGroupExpressions) :: 

Batch ("Operator Optimizations", fixedPoint, 
// 运 算 符 下 推 
PushProjectionThroughUnion, 
ReorderJoin, 

EliminateOuterJoin, 
PushPredicateThroughJoin, 
PushDownPredicate, 
LimitPushDown, 
ColumnPruning, 
InferFiltersFromConstraints, 
// 运 算 符 组 合 
CollapseRepartition, 
CollapseProject, 
CollapseWindow, 
CombineFilters, 
CombineLimits, 
CombineUnions, 

// 常 量 折合 和 强度 降低 
NullPropagation, 
FoldablePropagation, 
OptimizeIn (conf), 
ConstantFolding, 
ReorderAssociativeOperator, 
LikeSimplification, 
BooleanSimplification, 
SimplifyConditionals, 
RemoveDispensableExpressions, 
SimplifyBinaryComparison, 
PruneFilters, 
EliminateSorts, 
SimplifyCasts, 
SimplifyCaseConversionExpressions, 
RewriteCorrelatedScalarSubquery, 
EliminateSerialization, 
RemoveRedundantAliases, 
RemoveRedundantProject) :: 

Batch("Check Cartesian Products", Once, 
CheckCartesianProducts (conf)) :: 

Batch ("Decimal Optimizations", fixedPoint, 
DecimalAggregates) :: 

Batch ("Typed Filter Optimization", fixedPoint, 
CombineTypedFilters) :: 

Batch ("LocalRelation", fixedPoint, 
ConvertToLocalRelation, 
PropagateEmptyRelation) :: 

Batch ("OptimizeCodegen", Once, 
OptimizeCodegen (conf)) :: 

Batch ("RewriteSubquery", Once, 
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BI. RewritePredicateSubquery, 
82 CollapseProject) :: Nil 
B83 | 


Spark 2.2.0 版 本 的 Optimizer.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 
口 在 批 处 理 规则 Finish Analysis 中 ， 新 增 EliminateView、ReplaceDeduplicateWith 
Aggregate 规则 。 


口 新 增 Pullup Correlated Expressions 批 处 理 规则 。 

口 在 批 处 理 规则 Operator Optimizations 中 ， 新 增 SimplifyCreateStructOps、 Simplify 
CreateArrayOps、SimplifyCreateMapOps、extendedOperatorOptimizationRules 等 规则 。 

口 新 增 Join Reorder 批 处 理 规则 。 

口 新 增 Object Expressions Optimization 批 处 理 规则 。 

a 

2. EliminateView, 

< 

4. ReplaceDeduplicateWithAggregate) 

ee 

6 Batch ("Pullup Correlated Expressions", Once, 

PullupCorrelatedPredicates) 

ee 

ReorderJoin(conf), 

10 EliminateOuterJoin (conf), 

二 

12. LimitPushDown (conf), 

es 

as InferFiltersFromConstraints (conf), 

i 

16. NullPropagation (conf), 

ee 

18. SimplifyCreateSstructOps, 

9 SimplifyCreateArrayOps, 

人 0; SimplifyCreateMapOps) ++ 

2 extendedOperatorOptimizationRules: _*) 

CR le se a 

23. Batch("Join Reorder", Once, 

4 CostBasedJoinReorder (conf) ) 

25. Batch("Decimal Optimizations", fixedPoint, 

5。 DecimalAggregates (conf)) 

ZE Batch ("Object Expressions Optimization", fixedPoint, 

28 . EliminateMapObjects, 

895 CombineTypedFilters) :: 

-| 1 


(4) 优化 后 的 执行 计划 提交 给 SparkPlanner 处 理 ，SparkPlanner 里 面 定义 了 一 些 策略 ， 
目的 是 根据 逻辑 执行 计划 树 生成 最 后 可 以 执行 的 物理 执行 计划 树 ， 即 得 到 SparkPlan。 

(5) 在 最 终 真正 执行 物理 执行 计划 前 ， 还 要 进行 prepareForExecution 规则 处 理 。 
QueryExecution 里 定义 这 个 过 程 叫 prepareForExecution 。 

QueryExecution scala 的 源码 如 下 。 


Ea /** 
* 准 备 一 个 计划 [SparkPlan] ， 用 于 执行 Shuffle 算 子 和 内 部 行 格式 转换 的 需要 
2 */ 
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protected def prepareForExecution(plan: SparkPlan): SparkPlan = { 


preparations.foldLeft (plan) { case (sp, rule) => rule.apply(sp) } 
} 


(6) 最 后 调用 SparkPlan 的 execute0 执 行 计算 。 先 调用 executeCollect 方 法 ,在 executeCollect 








方法 中 调用 getByteArrayRdd 方法 ， 最 终 调用 execute0 进 行 计 算 。 这 个 execute0 在 每 种 
SparkPlan 的 实现 里 定义 ， 会 触发 整 棵 Tree 的 计算 。 
SparkPlan.scala 的 源码 如 下 。 








/** 
* 运 行 此 查询 ， 将 结果 作为 数组 返回 
*/ 


def executeCollect(): Array[InternalRow] = { 


Val byteArrayRdd = getByteArrayRdd() 


val results = ArrayBuffer[InternalRow] () 
byteArrayRdd.collect () .foreach { bytes => 

decodeUnsafeRows (bytes) .foreach (results .+=) 
} 


results.toArray 


其 中 ，executeCollect 方法 中 调用 了 getByteArrayRdd 方法 ，getByteArrayRdd 方法 封装 
unsaferows 到 更 快 的 序列 化 的 字 节 数组 。 字 节 数 组 的 格式 如 下 : [size] [bytes of UnsafeRow] 
[size] [bytes of UnsafeRow] .… [-1]。UnsafeRow 是 高 度 可 压缩 的 (任何 列 至 少 8B) ， 字 节 数 组 
也 是 可 压缩 的 。 

SparkPlan.scala 的 源码 如 下 。 


/** 
* 包 装 UnsafeRows 到 更 快 的 序列 化 的 字 节 数组 。 字 节 数 组 的 格式 如 下 : 
*[size] [bytes of UnsafeRow] [size] [bytes of UnsafeRow] ... [-1], UnsafeRow 
* 是 高 度 可 压缩 的 (任何 列 至 少 8B) 字 节 数组 也 是 可 压缩 的 
可 
private def getByteArrayRdd(n: Int = -1): RDD[Array[Byte]] = { 
execute () .mapPartitionsInternal { iter => 
Var count = 0 
val buffer = new Arrayl[lByte] (4 << 10) //4K 
val codec = CompressionCodec.createCodec (SparkEnv .get.conf) 
Val bos = new ByteArrayOutputstream() 
val out = new Data0utputStream(codec.compressedOutputStream (bos)) 
while (iter.hasNext && (n <0 || count < n)) { 
Val row = iter.next() .asInstanceOf [UnsafeRow] 
out .writeInt (row.getSizeInBytes) 
row.writeToStream(out, buffer) 
Sounts + 二 于 
} 
out .writeInt (-1) 
out .flush() 
out .close() 
Iterator (bos .toByteArray) 
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SparkPlan 的 execute 方法 的 源码 如 下 。 
yi /** 


* 返 回 查询 的 结果 为 RDD[InternalRow] ， 准 备 工 作 完成 后 委托 给 doExecute， 
*SparkPlan 的 具体 实现 须 重 写 doExecute 


2 Sy 

he final def execute(): RDD[InternalRow] = executeQuery { 
A doExecute () 

5. } 

(7) 生成 RDD。 


在 整个 运行 过 程 中 涉及 多 个 SparkSQL 的 组 件 ， 如 SqlParse、analyzer、optimizer、 
SparkPlan 等 。 

HiveContext: 是 将 存储 在 Hive 中 的 数据 集成 Spark SQL 执行 引擎 的 实例 。 

配置 文件 Hive 从 classpath 中 的 hive-site.xml 读 取 。 HiveContext 继承 自 SQLContext 类 。 

hiveContext 执行 架构 如 图 27-3 所 示 。 


HiVeQ1 - 
























































i 未 解析 的 解析 以 后 的 优化 以 后 的 
SQL 义 本 一 | 褒 辑 计划 训 辑 计划 | 一 一 | 让 辑 计 旭 
TE 元 数据 预 处 理 
一 Hive 计划 
复制 | 
转换 成 本 央行 的 
SchemaRDD 执行 和 i 物理 计划 





























A 准备 
Ca 7 执行 
图 27-3 hiveContext 执行 架构 


@ SQL 语句 经 过 HiveQLparseSql 解析 成 Unresolved LogicalPlan， 在 这 个 解析 过 程 中 对 
HiveQL 语句 使 用 getAst0 获 取 AST 树 ， 然 后 再 进行 解析 。 

@ 使 用 analyzer 结合 数据 Hive 源 数据 Metastore (新 的 catalog ) 进行 绑 定 , 生成 resolved 
LogicalPlan 。 

@) 使 用 optimizer 对 resolved LogicalPlan 进行 优化 ， 生 成 optimized LogicalPlan， 优 化 前 
使 用 了 ExtractPythonUdfs(catalog .PreInsertionCasts(catalog.CreateTables(analyzed))) 进 行 预 处 理 。 

@ 使 用 hivePlanner 将 LogicalPlan 转换 成 PhysicalPlan 。 

加 使 用 prepareForExecution() 将 PhysicalPlan 转换 成 可 执行 物理 计划 。 

@ 使 用 execute0 执 行 可 执行 物理 计划 。 

@ 执行 后 ， 使 用 map(_.copy) 将 结果 导入 SchemaRDD。 

3) Catalyst 优化 器 

Spark 2.2 版 本 中 ，Spark SQL、Spark DataSet、Hive SQL、SQL 流 式 处 理 等 组 件 的 底层 
运行 引擎 都 是 Catalyst。 

Catalyst 是 与 Spark 解 耦 的 一 个 独立 库 ， 是 一 个 impl-free 的 执行 计划 的 生成 和 优化 框架 。 
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以 下 是 Catalyst 较 早 期 的 架构 图 ， 展 示 的 是 代码 结构 和 处 理 流程 ， 如 今 的 版 本 在 核心 功能 上 
没有 改变 ， 我 们 仍然 用 这 张 图 进行 说 明 ， 如 图 27-4 所 示 。 
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图 27-4 ”Catalyst 引擎 运行 架构 图 


(1) Catalyst 定位 。 
其 他 系统 如 果 想 基于 Spark 做 一 些 类 SQL、 标 准 SQL 甚至 其 他 查询 语言 的 查询 ， 需 要 基 
于 Catalyst 提供 的 解析 器 、 执 行 计划 树 结 构 、 逻 辑 执行 计划 的 处 理 规则 体系 等 类 体系 来 实现 
执行 计划 的 解析 、 生 成 、 优 化 、 映 射 工作 。 
TreeNodelib 及 中 间 三 次 转化 过 程 中 涉及 的 类 结构 都 是 Catalyst 提供 的 。 物 理 执行 计划 映 
射 生 成 过 程 ， 物 理 执行 计划 基于 成 本 的 优化 模型 ， 具 体 物理 算 子 的 执行 都 由 系统 自己 实现 。 
(2) Catalyst 现状 。 
在 解析 器 方面 提供 的 是 一 个 简单 的 Scala 写 的 SQL Parser， 支 持 语义 有 限 ， 而 且 应 该 是 
标准 SQL 的 。 
在 规则 方面 ， 提 供 的 优化 规则 是 比较 基础 的 (和 Pig/Hive 比 ， 没 有 那么 丰富 ) 。 不 过 ， 
一 些 优化 规则 其 实 是 要 涉及 具体 物理 算 子 的 ， 所 以 ， 部 分 规则 需要 在 系统 方 自己 制定 和 实现 
(如 spark-sql 里 的 SparkStrategy) 。 
(3) Catalyst 的 类 结构 。 
TreeNode 体系 : TreeNode 是 Catalyst 执行 计划 表示 的 数据 结构 ， 是 一 个 树 结构 ， 具 备 一 
些 scala collection 的 操作 能 力 和 树 遍历 能 力 。 这 棵 树 一 直 在 内 存 里 维护 ,不 会 dump 到 磁盘 以 
某 种 格式 的 文件 存在 ， 且 无 论 在 映射 逻辑 执行 计划 阶段 ， 还 是 优化 逻辑 执行 计划 阶段 ， 树 的 
修改 都 是 以 替换 已 有 节点 的 方式 进行 的 。 
TreeNode 内 部 带 一 个 children: Seq[BaseType] 表 示 孩 子 节点 。 
TreeNode.scala 的 源码 如 下 。 
1. /** 
*# 返 回 该 节点 的 children 子 序列 ，children 子 节点 不 应 改变 ， 对 于 包含 child ren 子 节 
* 点 的 优化 ， 须 保持 不 变性 


2 Ee 
3. def children: Seq[BaseType] 


TreeNode 类 提供 的 方法 包括 : 针对 节点 操作 的 方法 ， 如 foreach、map、collect 等 ; 遍 


有 


下 篇 ”性 能 调 优 








历 树 上 的 节点 ， 对 匹配 节点 实施 变化 的 方法 ， 如 transformDown 〈 默 认 ， 前 序 遍 历 ) 、 
transformUp 等 。 

提供 UnaryNode、BinaryNode、LeafNode 3 种 trait， 即 若非 叶子 节点 ， 则 允许 有 一 个 或 
两 个 子 节点 。 

TreeNode 提供 的 是 范 型 。TreeNode 有 QueryPlan 和 Expression 两 个 子 类 继承 体系 ， 如 图 
27-5 所 示 。QueryPlan 下 面 是 逻辑 和 物理 执行 计划 两 个 体系 ， 前 者 在 Catalyst 里 有 详细 实现 ， 
后 者 需要 在 系统 自己 实现 。Expression 是 表达 式 体系 。 


™ i Treellode (ore, apache, spark, sql. catelyst, trees) 
和 BB Expression (orE, apache, spark. sql. catalyst. expressions) 
> Bueryrlan (ore apache. spark sql catalyst, plans) 


图 27-5 TreeNode 子 类 继承 类 


Tree 的 transformation 实现 : 传 入 PartialFunction[TreeType,TreeType]， 如 果 与 操作 符 匹 
配 ， 则 节点 会 被 结果 替换 掉 ， 否 则 节点 不 会 变动 。 整 个 过 程 是 对 children 节点 递归 执行 的 。 
执行 计划 表示 模型 .逻辑 执行 计划 QueryPlan 继承 自 TreeNode， 内 部 带 一 个 output: 
Seq[Attribute]， 具 备 transformExpressionDown、transformExpressionUp 方法 。 
在 Catalyst 中 ，QueryPlan 的 主要 子 类 体系 是 LogicalPlan， 即 逻辑 执行 计划 表示 ， 如 图 
27-6 所 示 。 其 物理 执行 计划 表示 由 使 用 方 实现 Spark-SQL 项 目 中 ) 。 


Treellode lore apache. spark sql catalyst, trees) 
> Expression (orE apache, spark sql catalyst. expressions) 
\/ 三 aueryPlan (org apache. spark sql catalyst.plans) 
和 三 LogicalPlan (or 人 apache. spark sql. catalyst. plans, logical) 
> 三 Sparplan (orE apache. spark sql. execution) 


图 27-6 ”QueryPlan 子 类 继承 类 


LogicalPlan 继承 自 QueryPlan ， 内 部 带 一 个 reference:Set[Attribute] ， 主 要 方法 为 
resolve(name:String): Option[NamedExpression]， 用 于 分 析 生 成 对 应 的 NamedExpression 。 
LogicalPlan 有 许多 具体 子 类 ， 如 UnaryNode、BinaryNode、LeafNode 等 类 ， 如 图 27-7 所 示 ， 
具体 在 org.apache.spark.sql.catalyst.plans.logical 路 径 下 。 


v @Ireelode (org apache spark sql catalyst trees) 
v QueryPlan (org apache spark sql catalyst plans) 
v LogicalPlan (org apache spark sql catalyst plans logical) 

bp Dinarylode (org apache spark sql catalyst. plans logical) 
EventTineNaternark (orE spache spark sql catalyst plans logical) 
InsertIntoTable (org apache spark sql catalyst plans logical) 

» Leaflode (ore spache spark sql catalyst plans logical) 

bp @objectProducer (org apache spark sql catalyst. plans logical) 

pb Unarylode (org spache spark sql catalyst plans logicsl) 
Union (ors apache spark sql catalyst plans logical) 


图 27-7 LogicalPlan 子 类 继承 类 
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逻辑 执行 计划 实现 :LeafNode 子 类 〈 部 分 ) 如 图 27-8 所 示 。 


了 @Leaflode (org spache spark sql. catalyst. plans logicsl) 

> 国 Conmand (org apache spark sql catalyst plans. logical) 
ConplexPlan (org spache spark sql catslyst trees) 
ExternallDD (org spache spark sql execution) 
ImenoryRelation (org apache spark sql execution colunnar) 
@JsonTlestIreellode (org apache spark sql catalyst trees) 

> localRelation (org apache spark sql catalyst plans logical) 
LogicalRDD (org spache spark sql execution) 
Logicalhelation (org spache spark sql execution datasources) 
henoryPlan (orE spache spark sql execution streaming) 
hetastoreRelation (org apache spark sql hive) 
@ leverPlanned$ in SparkPlannerSuite (orE spache spark sql execution) 
@ oneRowRelation$ (orE spache spark sql catalyst plans logical) 
hanee (re apache spark sql catslyst plans logical) 
sinpleCataloeRelation (org apache spark sql catalyst catalog) 
@sQLTable in SQLBuilder (orE spache spark sql catalyst) 
treamingExecutionRelation (orE apache spark sql execution streaming) 
treamineRelation (orE apache spark sql execution streaming) 


图 27-8 ”LeafNode 子 类 (部 分 ) 


UnaryNode 子 类 (部 分 ) 如 图 27-9 所 示 。 





v Unarylode (orE apache spark sql catalyst plans logical) 
hc eeate (org apache spark sql. catalyst plans logical) 
AppendColunns (org apache spark sql catalyst plans logical) 
Broadcasthint (org apache spark sql catalyst plans logical) 
DeserializeTo0bject (org apache spark sql catalyst plans logical) 
Distinet (ore apache spark sal catalyst plans logical) 
Expand (org spache spark sql catalyst plans logical) 
Tilter (org apache spark sql. catalyst plans. logical) 
lathapGroupsInR (org apache spark sql catalyst plans logical) 
enerate (ore apache spark sql catalyst plans logical) 
obalLinit (org apache spark sql catalyst plans logical) 
roupingsets (org apache spark sql catalyst plans logical) 
LoodLinit (org spache spark sql catalyst plans logical) 
NapGroups (ore apache spark sql catalyst plans logical) 
pb objectConsuner (org apache spark sql catalyst plans logical) 
Pivot (ore spache spark sql catalyst Plans logical) 
Project (org spache spark sql catalyst plans logical) 
Repartition (org apache spark sql catalyst plans logical) 
hepartitionByExpre 
@Returnhnsver (or spache spark sql catalyst plans logical) 






ion 【orE apache spark sql catalyst plans logical) 
dumple (ore spache spark sql catalyst plans logical) 


scriptIransfornation (ore spache spark sql catalyst plans logical) 
sort (ore spache spark sql catalyst plans logical) 


图 27-9 UnaryNode 子 类 (部分) 


BinaryNode 子 类 如 图 27-10 所 示 。 
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T @Binarylode (ore apache spark sql catalyst plans logicsl) 
@CoGroup (ors apache spark sql catalyst plans logical) 
Join (ore apache spark sql catalyst plans logical) 
by setOperation (org apache spark sql catalyst plans Logical) 
OTesthinaryRelation in LogicalPlanSuite (org spache spark sql catalyst plans) 


图 27-10 ”BinaryNode 子 类 


物理 执行 计划 : 物理 执行 计划 节点 在 具体 系统 里 实现 ， 如 spark-sql 工程 里 的 SparkPlan 
继承 体系 。 每 个 子 类 都 要 实现 execute 方法 ， 作 为 trait 接口 的 有 以 下 3 类 : LeafNode 的 子 类 、 
UnaryNode 的 子 类 、BinaryNode 的 子 类 。 

执行 计划 映射 : Catalyst 提供 了 一 个 QueryPlanner[Physical <: TreeNode[PhysicalPlan]] 抽 
象 类 ， 需 要 子 类 制定 一 批 strategies: Seq[Strategy]， 其 apply 方法 也 是 类 似 根据 制定 的 具体 策 
略 来 把 逻辑 执行 计划 算 子 映射 成 物理 执行 计划 算 子 。 由 于 物理 执行 计划 的 节点 是 在 具体 系统 
里 实现 的 ， 所 以 QueryPlanner 及 里 面 的 strategies 也 需要 在 具体 系统 里 实现 。 

在 Spark-SQL 项 目 中 ，SparkStrategies 继承 了 QueryPlanner[SparkPlan]， 内 部 制定 了 
LeftSemiJoin、HashJoin、PartialAggregation、BroadcastNestedLoopJoin、CartesianProduct 等 几 
种 策略 ， 每 种 策略 接受 的 都 是 一 个 LogicalPlan， 生 成 的 是 Seq[SparkPlan]， 每 个 SparkPlan 理 
解 为 具体 RDD 的 算 子 操作 。 


2. Spark SQL 核心 组 件 


Spark SQL 核心 组 件 包括 LogicalPlan 组 件 中 的 LeafNode、UnaryNode、BinaryNode; 
SqlParser 组 件 中 的 sqljPraser，Analyzer 组 件 中 的 Analyzer 类 。 在 sparkSQL 的 运行 架构 中 ， 
LogicalPlan 贯穿 了 大 部 分 过 程 ， 其 中 catalyst 中 的 SqlParser、Analyzer、Optimizer 都 要 对 
LogicalPlan 进行 操作 。 

1) LogicalPlan 

LogicalPlan 的 定义 如 下 。 

在 LogicalPlan 里 维护 着 一 套 统计 数据 和 属性 数据 ， 也 提供 了 解析 方法 , 同时 延伸 了 3 种 
类 型 的 LogicalPlan。 

口 LeafNode: 对 应 于 trees.LeafNode 的 LogicalPlan。 

口 UnaryNode: 对 应 于 trees.UnaryNode 的 LogicalPlan。 

口 BinaryNode: 对 应 于 trees.BinaryNode 的 LogicalPlan。 

而 对 于 SQL 语句 解析 时 ,会 调用 和 SQL 匹配 的 操作 方法 进行 解析 ; 这 些 操作 分 4 大 类 ， 
最 终生 成 LeafNode、UnaryNode、BinaryNode 中 的 一 种 。 

口 basicOperators: 一 些 数据 基本 操作 ， 如 Join、Union、Filter、Project、Sort。 

口 commands: 一 些 命令 操作 ， 如 SetCommand、CacheCommand。 

口 partitioning: 一 些 分 区 操作 ， 如 RedistributeData。 

口 ScriptTransformation: 对 脚本 的 处 理 ， 如 ScriptTransformation 。 

LogicalPlan 类 的 总 体 架 构 如 图 27-11 所 示 。 

2) SqlParser 

SqlParser 的 功能 是 将 SQL 语句 解析 成 逻辑 上 的 UnesolvedLogicalPlan。 

SqlParser 解析 流程 图 如 图 27-12 所 示 。 
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图 27-11 LogicalPlan 类 的 总 体 架 构 
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图 27-12 ”SqlParser 解析 流程 图 
首先 看 一 下 源码 中 的 继承 结构 ， 如 图 27-13 所 示 。 


TY “AbstractSqlParser (org apache spark sql catalyst parser) 
@@ CatalystSqlParser$ (orE apache spark sql catalyst parser) 
sparlSqlParser (org apache spark sql execution) 


图 27-13 SparkSQLParser 继承 结构 
其 中 ， 每 个 类 中 都 创建 了 自己 需要 的 关键 字 和 方法 。 
当 调 用 sql("select name,value from temp_shengli") 时 ， 源 码 中 执行 如 下 语句 。 
SparkSession.scala 的 源码 如 下 。 


工 。 /** 
2 * 使 用 Spark 执行 SQL 查询 , 返回 结果 为 DataFrame。 用 于 SQL 解析 的 方言 可 以 用 spark. 
*sql .dialect 来 配置 


3 来 

4. * Qsince 2.0.0 

33 */ 

6 def sql (sqlText: String): DataFrame = { 

Dataset .ofRows (self, sessionState.sqlParser.parsePlan(sqlText)) 


Se 
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8 | 


其 中 ， 在 ofRows 方法 中 调用 new 函数 创建 一 个 Dataset， 也 就 是 通过 sql 方法 构造 器 产 
生 一 个 新 的 Dataset。 
Dataset.scala 的 源码 如 下 。 


1. def ofRows (sparkSession: SparkSession, logicalPlan: LogicalPlan): DataFrame 
| 

val qe = sparkSession.sessionState.executePlan (logicalPlan) 

3 qe.assertAnalyzed() 

4. new Dataset [Row] (sparkSession, qe, RowEncoder (qe .analyzed.schema) ) 

be 








创建 Dataset 时 ，ofRows 方法 传 入 sessionState.sqlParser.parsePlan(sqlText) 参 数值 ， 
sessionState.sqlParser 方法 实例 化 了 一 个 SparkSqlParser。 
Spark 2.1.1 版 本 的 SessionState.scala 的 源码 如 下 。 


1. /** 
* 解 析 器 从 SQL 文本 中 提取 表达 式 、 计 划 、 表 标识 符 等 内 容 
2 A 


3. lazy val sqlParser: ParserInterface = new SparkSqlParser (conf) 


Spark 2.2.0 版 本 的 BaseSessionStateBuilder.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 
特点 : sqlParser 的 实例 不 在 SessionState.scala 中 新 建 , 而 在 构建 SessionState 类 时 已 经 实例 化 ， 
作为 参数 传 入 SessionState。 构 建 SparkSession 时 调用 instantiateSessionState 进行 初始 化 ， 
instantiateSessionState 方法 调用 ctor.newInstance(sparkSession,None).、，asInstanceOf 确 
[BaseSessionStateBuilder].build 方法 ， 在 BaseSessionStateBuilder 类 初始 化 时 构建 
SparkSqlParser 实例 ， 然 后 赋值 给 sqlParser。 


1. protected lazy val sqlParser: ParserInterface = { 
2 extensions.buildParser (session, new SparkSqlParser (conf)) 
Se 
其 中 ，new SparkSqlParser 新 构建 一 个 SparkSqlParser。 
SparkSqlParser.scala 的 源码 如 下 。 








工 。 /** 
* Spark SQL 语句 的 具体 分 析 器 
2 
3 
4. class SparkSqlParser (conf: SQLConf) extends AbstractSqlParser { 
5 val astBuilder = new SparkSqlAstBuilder (conf) 
6. 
Ye private val substitutor = new VariableSubstitution (conf) 
8. 
) protected override def parse[T] (command: String) (toResult: SqlBaseParser => 
T): T= 4 
DE super.parse (substitutor.substitute (command)) (toResult) 
EC 
2 
回 到 SparkSession.scala, sessionState.sqlParser.parsePlan(sqlText) 语 句 调 用 parsePlan 方法 ， 


ParserInterface 是 一 个 trait， 其 中 的 parsePlan 是 一 个 抽象 方法 ， 没 有 具体 的 实现 。 
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Spark 2.1.1 版 本 的 ParserInterface.scala 的 源码 如 下 。 


1. /** 


* 分 析 器 parser 的 接口 
xs/ 


2 
4. trait ParserInterface { 

DE /*#* 根 据 给 定 的 SQL 字符 串 创 建 一 个 logicalplan */ 

6 def parsePlan(sqlText: String): LogicalPlan 
7 

8 


/** 根 据 给 定 的 SQL 字符 串 创建 一 个 表达 式 */ 


后 def parseExpression(sqlText: String): Expression 


11. /** 根 据 给 定 的 SQL 字符 串 创建 一 个 表 标识 符 TableIdentifier */ 

12. def parseTableIdentifier(sqlText: String): TableIdentifier 

Fe 

Spark 2.2.0 版 本 的 ParserInterface.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 
口 新 增 parseFunctionIdentifier 函数 标识 的 解析 。 

口 新 增 parseTableSchema 表 字 段 结果 的 解析 。 

口 新 增 pars eDataType 数据 类 型 的 解析 。 

口 新 增 parser 解析 SQL 语句 时 异常 情况 的 处 理 ， 抛 出 错误 提示 。 

1 


/** 

* 分 析 器 parser 的 接口 
2 */ 
3. Q@DeveloperApi 
4 trait ParserInterface { 
5 /** 

* 解析 字符 串 为 逻辑 计划 [LogicalPlan] 
6 */ 
x Qthrows [ParseException] ("Text cannot be parsed to a LogicalPlan") 
8 def parsePlan(sqlText: String): LogicalPlan 
9. 
10. /es 

* 解析 字符 串 为 表达 式 [Expression] 
4 */ 
He Qthrows [ParseException] ("Text cannot be parsed to an Expression") 
13. def parseExpression(sqlText: String): Expression 
14. 
De 

* 解析 字符 串 为 表 标识 [TableIdentifier] 
16. */ 


:和 Qthrows [ParseException] ("Text cannot be parsed to a TableIdentifier") 
18. def parseTableIdentifier(sqlText: String) : TableIdentifier 


20. /** 
* 解析 字符 串 为 函数 标识 [FunctionIdentifier] 
a */ 
225 Qthrows [ParseException] ("Text cannot be parsed to a FunctionIdentifier") 


23. def parseFunctionIdentifier(sqlText: String) : FunctionIdentifier 


25. /** 
* 解析 字符 串 为 结构 类 型 [StructType] ，SQL 字符 串 应 该 使 用 逗号 分 隔 的 列表 字段 定义 ， 
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* 该 字段 定义 将 保存 正确 的 Hive 元 数据 


2 ,A 
a Qthrows [ParseException] ("Text cannot be parsed to a schema") 
28, def parseTableSchema (sqlText: String): StructType 
人 9 
EU V/s 
* Parse a string to a[lDataType] 
3 */ 


32.  @throws[ParseException] ("Text cannot be parsed to a DataType") 
33. def parseDataType (sqlText: String) : DataType 
34. } 


其 具体 子 类 AbstractSqlParser 的 parsePlan 的 实现 方法 如 下 ， 其 中 调用 了 parse 方法 。 
ParseDriver.scala 的 源码 如 下 。 
二 /** 根 据 给 定 的 SQL 字符 串 创 建 一 个 逻辑 计划 LogicalPlan */ 


芝 志 override def parsePlan(sqlText: String): LogicalPlan = parse (sqlText) 
{ parser => 

应 astBuilder.visitSingleStatement (parser.singleStatement ()) match { 

4. case plan: LogicalPlan => plan 

Ds case => 

Ge val position = Origin(None, None) 

ss throw new ParseException (Option (sqlText), "Unsupported SQL statement", 

position, position) 
8 } 
9 | 


ParseDriver.scala 源码 中 parse 方法 的 源码 如 下 。 


1. protected def parse[T] (command: String) (toResult: SqlBaseParser => T) : 


T={ 
logInfo(s"Parsing command: $command") 
三 所 
4. val lexer = new SqlBaseLexer (new ANTLRNoCaseStringStream (Command) ) 
5 全 lexer.removeErrorListeners () 
6 lexer.addErrorListener (ParseErrorListener) 
7 
9 三 val tokenStream = new CommonTokenStream(lexer) 
9 val parser = new SqlBaseParser (tokenStream) 
0 parser.addParseListener (PostProcessor) 
J parser.removeErrorListeners () 
二 2 parser.addErrorListener (ParseErrorListener) 
3 
14. trEy 
15. try { 
6 // 首 先 ， 使 用 可 能 更 快 的 SLL 模式 尝试 分 析 
后 parser.getInterpreter.setPredictionMode (PredictionMode.SLL) 
3B< toResult (parser) 
19< } 
2 catch { 
1 case e: ParseCancellationException => 
Zs // 如 果 解 析 失 败 ， 使 用 LL 模式 进行 解析 
tokenSstream.reset() //rewind input stream 
24. parser.reset () 
ys 
26. // 重 新 试 一 次 
2 全 parser.getInterpreter.setPredictionMode (PredictionMode.LL) 
28. toResult (parser) 
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} 
' 


catch { 
case e: ParseException if e.command.isDefined => 
throw e 


case e: ParseException => 
throw e.withCommand (command) 
case e: RnalysisException => 
val position = Originl(e.line, e.startPosition) 


throw new ParseException (Option(command), e.message, position, 


position) 


其 中 ，parse 方法 的 SqlBaseLexer、SqlBaseParser 类 是 ANTLR4 自动 生成 的 。 后 面 将 研 
究 Spark SQL 中 ANTLR4 的 应 用 。 

3) Analyzer 

Spark SQL 的 执行 流程 中 另 一 个 核心 的 组 件 是 Analyzer。 本 节 介 绍 Analyzer 在 Spark SQL 
里 起 到 的 作用 。Analyzer 位 于 Catalyst 的 analysis package 下 ,主要 职责 是 将 Sql Parser 未 能 
Resolved 的 Logical Plan 进行 Resolved 解析 。 

Analyzer 会 使 用 Catalog 和 FunctionRegistry 将 UnresolvedAttribute 和 UnresolvedRelation 
转换 为 catalyst 里 全 类 型 的 对 象 。 

Analyzer 里 面 有 fixedPoint 对 象 ， 一 个 Seq[Batch]。 

Spark 2.1.1 版 本 的 Analyzer.scala 的 源码 如 下 。 


:用 


/** 


* 提供 了 一 个 逻辑 查询 计划 分 析 器 , 利用 [SessionCatalog] 和 [FunctionRegistry] 的 信 
* 息 将 [UnresolvedAttribute] 和 [UnresolvedRelation] 解 析 成 完全 类 型 化 的 对 象 


本 


class Analyzer( 
catalog: SessionCatalog, 
conf: CatalystConf, 
maxIterations: Int) 
extends RuleExecutor[LogicalPlan] with CheckAnalysis { 


def this (catalog: SessionCatalog, conf: CatalystConf) = { 
this(catalog, conf, conf.optimizerMaxIterations) 
} 


def resolver: Resolver = conf.resolver 


protected val fixedPoint = FixedPoint (maxIterations) 


/** 

* 著 盖 重 写 ， 为 “Resolution” 批 处 理 提供 额外 的 规则 

A 

val extendedResolutionRules: Seq[Rule[LogicalPlan]] = Nil 


Spark 2.2.0 版 本 的 Analyzer.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 新 增 了 
postHoc ResolutionRules 变量 。 


< 
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Lo 
4 抽 /** 
* 履 盖 重 写 ， 以 提供 post-hoc 完成 后 处 理 的 规则 。 注 意 ， 这 些 规则 将 被 单独 执行 。 此 批 操作 
*# 将 在 正常 解析 批 处 理 之 后 运行 ， 将 执行 一 次 规则 
3 #/ 
4. val postHocResolutionRules: Seq[Rule[LogicalPlan]] = Nil 
时 


Analyzer 里 的 一 些 对 象 解释 如 下 。 
口 FixedPoint: 相当 于 迭代 次 数 的 上 限 。 
RuleExecutor.scala 的 源码 如 下 。 


1. Analyzer.scala 
2 protected val fixedPoint = FixedPoint (maxIterations) 


4. RuleExecutor.scala 
5. ”/** 策 略 将 一 直 运 行 到 固定 次 数 或 最 大 迭代 次 数 ， 以 先 达到 的 次 数 为 准 */ 


6s case class FixedPoint (maxIterations: Int) extends Strategy 


口 Batch: 批 次 ，Batch 对 象 由 一 系列 Rule 组 成 ， 采 用 一 个 策略 。 
RuleExecutor.scala 的 源码 如 下 。 
Analyzer.scala 


1 
2. lazy val batches: Seq[Batch] = Seql( 
3 Batch ("Substitution", fixedPoint, 


二 

5. RuleExecutor.scala 

6. Vs#*# 一 批 规则 */ 

了 protected case class Batch (name: String, strategy: Strategy, rules: 
Rule[TreeType]*) 

Se 


口 Rule: 理解 为 一 种 规则 ， 这 种 规则 会 应 用 到 Logical Plan， 从 而 将 UnResolved 转变 为 


Resolved。 
Rule.scala 的 源码 如 下 。 
ds Analyzer.scala 
人 /水 玉 

*# 履 盖 重 写 ， 为 Resolution 批 处 理 提供 额外 的 规则 

3 */ 
册 志 
5 val extendedResolutionRules: Seq[Rule[LogicalPlan]] = Nil 
和 


7. Rule.scala 
8. abstract class Rule[TreeType <: TreeNode[_]] extends Logging { 


10. /ss 根据 类 名 称 自动 推断 此 规则 的 名 称 */ 


I val ruleName: String = { 

2 val className = getClass.getName 

ke if (className endsWith "$") className.dropRight (1) else className 
TA } 

Se 

二 def applYyY(Pplan: TreeType) : TreeType 

1 


口 Strategy: 最 大 的 执行 次 数 , 如 果 执 行 次 数 在 最 大 迭代 次 数 之 前 , 就 达到 了 FixedPoint， 
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策略 就 会 停止 ， 不 再 应 用 了 。 
RuleExecutor scala 的 源码 如 下 。 


k /** 
* 表 示 最 大 执行 次 数 的 规则 的 执行 策略 。 执 行 达到 固定 次 数 〈 即 收敛 最 大 迭代 次 数 ) 之 前 ， 它 
* 将 停止 迭代 

本 gh 

< 入 abstract class Strategy { def maxIterations: Int } 

4. 

5 /## 策 略 只 运行 一 次 */ 

Gs case object Once extends Strategy { val maxIterations = 1 } 

We 

8. /#* 策 略 将 一 直 运 行 到 固定 次 数 或 最 大 迭代 次 数 ， 以 先 达到 的 次 数 为 准 */ 

9 case class FixedPoint (maxIterations: Int) extends Strategy 


Analyzer 解析 主要 是 根据 这 些 Batch 里 面 定义 的 策略 和 Rule 来 对 Unresolved 的 逻辑 计划 
进行 解析 的 。 这 里 Analyzer 类 本 身 并 没有 定义 执行 的 方法 ， 而 是 从 它 的 父 类 RuleExecutor 
[LogicalPlan] 中 寻找 。 

4) Optimizer 

Optimizer 的 主要 职责 是 将 Analyzer 给 Resolved 的 Logical Plan 根据 不 同 的 优化 策略 
Batch， 来 对 语法 树 进 行 优化 。 优 化 逻辑 计划 节点 (Logical Plan) 以 及 表达 式 〈Expression) ， 
也 是 转换 成 物理 执行 计划 的 前 置 。 

(1) Optimizer。 

Optimizer 类 是 在 Catalyst 里 的 Optimizer 包 下 的 一 个 类 ， 继 承 结构 如 图 27-14 所 示 。 
Optimizer 的 工作 方式 类 似 于 Analyzer,， 因 为 它们 都 继承 自 RuleExecutor[LogicalPlan], 都 是 执 
行 一 系列 的 Batch 操作 ， 生 成 Optimized LogicalPlan 。 

v Rulefxecutor (org apache spark sql catalyst rules) 
Y =iBOptinizer (org apache spark sql, catalyst optimizer) 


pb (CBSinpleTestOptimizer (org apache. spark sql catalyst optimizer) 
(SparkOptimizer (orE spache spark sql execution) 


图 27-14 ”Optimizer 继承 结构 


(2) 优化 策略 详解 。 

Optimizer 优化 就 是 在 Catalyst 里 将 语法 分 析 后 的 逻辑 计划 (Analyzed Logical Plan) 通过 
对 轩 辑 计划 (Logical Plan) 和 表达 式 (Expression ) 进行 规则 (Rule) 的 应 用 及 转换 (transfrom)， 
从 而 实现 树 节点 的 合并 和 优化 。 其 中 主要 的 优化 策略 是 合并 、 列 裁剪 、 过 滤器 下 推 等 。 

口 CombineLimits: 将 两 个 相 邻 的 limit 合并 为 一 个 , 要 求 一 个 limit 是 另 一 个 limit 的 
grandChild。 例 如 ， 将 两 个 相 邻 的 limit 进行 合并 ， 可 以 使 用 CombineLimits。 例 如 ， 
sql("select * from (select * from src limit 5)a limit 3 ") 这 样 一 个 SQL 语句 , 会 将 limit 5 
和 limit 3 进行 合并 ， 只 剩 一 个 limit 3。 

口 ConstantFolding (常量 辣 加 ) : 常量 合并 是 Expression 优化 的 一 种 ， 对 于 可 以 直接 计 
算 的 常量 ， 不 用 放 到 物理 执行 里 去 生成 对 象 来 计算 ， 直 接 在 计划 里 计算 即 可 。 

口 NullPropagation 〈 空 格 处 理 ) : Null 值 的 处 理 ， 可 以 使 用 NullPropagation。 例 如 ， 
sql("select count(null) from src where key is not null") 这 样 一 个 SQL 语句 会 转换 成 
sql("select count(0) from src where key is not null") 来 处 理 。 
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LikeSimplification: like 表达 式 简化 。 

BooleanSimplification: 对 布尔 表达 式 的 优化 ， 类 同 Java 布尔 表达 式 中 的 短路 判断 ， 
看 看 布尔 表达 式 两 边 能 不 能 通过 只 计算 一 边 ， 省 去 计算 另 一 边 而 提高 效率 ， 称 为 简 
化 布尔 表达 式 。 

SimplifyFilters: Filter 简化 。 

SimplifyCasts: Cast 简化 。 

SimplifyCaseConversionExpressions: CASE 大 小 写 转化 表达 式 简 化 。 
PushPredicateThroughProject: 通过 Project 谓词 下 推 。 

PushPredicateThroughJoin: 通过 Join 谓词 下 推 。 

ColumnPruning: 列 裁剪 就 是 减少 不 必要 的 Select 的 某 些 列 。 

列 裁剪 在 3 种 地 方 可 以 用 : 

(1) 在 聚合 操作 中 ， 可 以 做 列 裁剪 。 

(2) 在 Join 操作 中 ， 左 右 孩 子 可 以 做 列 裁剪 。 

(3) 合并 相 邻 的 Project 的 列 时 可 以 做 列 裁剪。 


3. Spark SQL 中 ANTLR4 的 应 用 


ANTLR 是 一 个 强大 的 解析 器 生成 器 ， 可 用 于 读 取 、 处 理 、 执 行 或 翻译 结构 化 文本 或 二 
进 制 文件 。 它 广泛 应 用 于 学 术 界 和 工业 界 ， 建 立 各 种 语言 ， 工 具 和 框架 。 例 如 ，Twitter 搜索 
使 用 ANTLR 进行 查询 解析 ， 每 天 有 超过 2 亿 次 查询 。Hive 和 Pig 语言 ，Hadoop 的 数据 仓库 
和 分 析 系统 都 使 用 ANTLR。Lex Machina 使 用 ANTLR 从 法 律 文本 中 提取 信息 .Oracle 在 SQL 
Developer IDE 及 其 迁移 工具 中 使 用 ANTLR。NetBeans IDE 使 用 ANTLR 解析 C ++。Hibemate 
对 象 关 系 映 射 框架 中 的 HQL 语言 使 用 ANTLR 构建 。 

除了 这 些 大 型 的 项 目 ，ANTLR 还 可 以 构建 各 种 有 用 的 工具 ， 如 配置 文件 读 取 器 、 旧 代 
码 转 换 器 、wiki 标记 泻 染 器 和 JSON 解析 器 。ANTLR 已 经 为 对 象 关 系数 据 库 映射 建立 了 一 些 
工具 ， 描 述 了 3D 可 视 化 ， 将 解析 代码 注入 到 Java 源码 中 ， 甚 至 还 做 了 简单 的 DNA 模式 匹 
配 示例 。 

从 称 为 语法 的 形式 语言 描述 中 ，ANTLR 生成 可 以 自动 构建 解析 树 的 语言 的 解析 器 ， 解 
释 语 法 如 何 匹配 输入 的 数据 结构 。ANTLR 还 会 自动 生成 tree walkers， 以 使 用 它们 访问 这 些 
树 的 节点 来 执行 特定 于 应 用 程序 的 代码 。 

ANTLR 被 广泛 使 用 ，ANTLR 易于 理解 、 强 大 、 灵 活 ， 能 够 生成 可 读 的 输出 ， 具 有 BSD 
许可 证 下 的 完整 源码 ， 因 此 得 到 积极 的 支持 。 

ANTLR 对 解析 的 理论 和 实践 做 出 了 贡献 ， 包 括 : 


linear approximate lookahead 。 


口 口 





DOOODODD 





semantic and syntactic predicates 。 
ANTLRWorks。 
tree parsing。 
LL(*)。 
Adaptive LL(*) in ANTLR v4。 
Terence Parr 是 ANTLR 的 发 明 者 ， 自 1989 年 以 来 一 直 在 ANTLR 工作 ， 他 是 旧金山 大 
学 的 计算 机 科学 教授 。 


DOOODOD 
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ANTLR 做 两 件 事 : @ 将 语法 转换 为 Java (或 其 他 目标 语言 ) 的 语法 分 析 器 /词法 分 析 器 
的 工具 。@) 运行 期 间 生成 解析 器 /词法 分 析 器 。 如 使 用 ANTLR Intellij 插件 或 ANTLRWorks 
来 运行 ANTLR 工具 ， 生 成 的 代码 仍 将 需要 运行 时 库 。 

首先 ， 下 载 并 安装 ANTLR 开发 工具 插件 。 然 后 ， 获 取 系统 运行 环境 ， 以 运行 生成 的 解析 
器 /词法 分 析 器 。 下 面 将 在 UNIX 系统 和 Windows 系统 中 分 别 安装 部 署 antlr-4.5.3-complete.jar。 

在 UNIX 系统 中 安装 部 署 antlr-4.5.3-complete.jar。 

1. 安装 Java (1.6 或 更 高 版 本 ) 。 

2. 下 载 安装 antlr 的 Jar 包 。 

1. $ cd /usr/local/lib 

2. $ curl -0 http://www.antlr.org/download/antlr-4.5.3-complete.jar 

或 者 从 浏览 器 中 下 载 : http://www.antlr.org/download.html ,并 将 其 放 在 /usr/locallib 位 置 。 
将 antlr-4.5.3-complete.jar 附加 到 系统 的 CLASSPATH。 

1. $ export CLASSPATH=".:/usr/local/lib/antlr-4.5.3-complete.jar:$CLASSPATH" 




















创建 ANTLR 工具 别名 和 TestRig。 
1. $aliasantlr4='java -Xmx500M -cp "/usr/local/lib/antlr-4.5.3-complete.jar: 
$CLASSPATH" org.antlr.v4.Tool' 

2. $ alias grun='java org.antlr.v4.gui.TestRig' 

在 Windows 系统 中 安装 部 署 antlr-4.5.3-complete.jar。 

1. 安装 Java (1.6 或 更 高 版 本 ) 。 

2. 从 http://www.antlr.org/download/ 下 载 antlr-4.5.3-completejar， 保 存 到 windows 本 地 目 
录 中 ， 如 C:\Javalib。 

3. 将 antlr-4.5-complete.jar 到 CLASSPATH， 或 者 使 用 系统 属性 对 话 框 > 环境 变量 > 创建 
或 附加 到 CLASSPATH 变量 。 

1. SET CLASSPATH=.;C:\Javalib\antlr-4.5.3-complete.jar; $CLASSPATHS 


使 用 批 处 理 文件 或 doskey 命令 为 ANTLR 工具 和 TestRig 创建 快捷 命令 : 
批 处 理 文件 〈 系 统 PATH 中 的 目录 ) antlr4.bat 和 grun.bat。 





java org.antlr.v4.Tool %* 
2. java org.antlr.v4.gui.TestRig %* 
或 者 使 用 doskey 命令 : 


1. doskey antlr4=java org.antlr.v4.Tool S$* 
2. doskey grun =java org.antlr.v4.gui.TestRig S$* 


ANTLR 安装 测试 。 
可 以 直接 启动 org.antlr.v4.Tool。 


$ java org.antlr.v4.Tool 

ANTLR Parser Generator Version 4.5.3 

=0 specify output directory where all output is generated 
Si specify location of .tokens files 


MAODP 


或 者 在 Java 上 使 用 -jar 选项 。 


a 
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$ java -jar /usr/local/lib/antlr-4.5.3-complete.jar 

ANTLR Parser Generator Version 4.5.3 

-oO specify output directory where all output is generated 
= specify location of .tokens files 


ANTLR 的 第 一 个 例子 














口 
加 
口 


ANTLR 开发 一 个 语法 分 析 器 ， 可 以 分 成 3 个 步骤 。 
写 出 要 分 析 内 容 的 文法 。 
用 ANTLR 生成 相对 该 文法 的 语法 分 析 器 的 代码 。 
编译 运行 语法 分 析 器 。 


首先 在 临时 目录 中 将 以 下 语法 放 在 Hello.g4 文件 中 。 


AppODP 


// 定 义 一 个 名 称 为 Hello 的 文法 解析 器 


grammar Hello; 


hollor LD // 匹 配 关键 词 hello， 之 后 跟随 标识 符 
ED // 匹 配 小 写 的 标识 符 


WS : [ \t\r\n]+ -> skip ; // 忽 略 空格 、tab 符 、 换 行 符 


Hello.g4 文件 的 第 一 行 grammar Hello 的 Hello 为 文法 的 名 称 ，Hello 与 文件 名 一 致 ， 文 
件 名 后 级 以 .g4 结尾 。Hello.g4 第 二 行 开 始 是 文法 定义 部 分 ， 文 法 是 用 扩展 的 巴 科 斯 范式 
(EBNF1) 推导 式 来 描述 的 ， 每 行 都 是 一 个 规则 (rmle) 或 叫 作 推导 式 、 产 生 式 ， 每 个 规则 的 
左边 是 文法 中 的 一 个 名 字 ， 代 表 文 法 中 的 一 个 抽象 概念 。 中 间 用 一 个 “:” 表 示 推 导 关 系 ， 右 
边 是 该 名 字 推 导出 的 文法 形式 。 

Hello.g4 文法 的 规则 定义 如 下 。 


本 | 


口 


口 


r :hello'ID ; ”代表 表达 式 语句 , 表示 以 hello' 开 头 的 字符 串 , 'hello' 之 后 跟随 的 字符 
须 符 合 表达 式 ID 的 规则 ， 即 任意 小 写字 母 的 字符 串 。 表 达 式 本 身 是 合法 的 语句 ， 表 
达 式 也 可 以 出 现在 赋值 表达 式 中 组 成 赋值 语句 ， 语 句 以 “;” 字 符 结 束 。 

ID : [a-z]+ ; 以 小 写 形式 表达 的 词法 描述 部 分 ， ID 表示 变量 由 - -个 或 多 个 小 写字 母 
组 成 。 

WS : [trm]+ -> skip ; WS 表示 空白 ， 它 的 作用 是 过 滤 掉 空格 、TAB 符号 、 回 车 换行 
的 无 意义 字符 。skip 的 作用 是 跳 过 空白 字符 。 





接 下 来 运行 ANTLR 工具 ， 使 用 antlr4 批 处 理 文件 来 编译 文法 。 


2 


三 


$ cd /tmp 
$ antlr4 Hello.g4 
$ javac Hello*.java 


然后 进行 测试 ， antlr4 提供 了 一 个 可 以 测试 文法 的 工具 类 java org.antlr.v4.gui.TestRig, 使 





.934。 


入 
2 
3 
4 
] 


用 TestRig 来 测试 新 开发 的 文法 ， 使 用 grun 批 处 理 文件 测试 运行 。 





$ grun Hello r -tree 

hello parrt 

~ 

(r hello parrt) 

(That ^D means EOF on unix it's ^2Z in Windows.) The -tree option prints 
the parse tree in LISP notation. 

It's nicer to look at parse trees visually. 

$ grun Hello r -gui 
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8. hello parrt 

| 

使 用 -gui 参数 可 以 让 工具 类 显示 一 个 窗口 来 显示 解析 后 的 树 形 结构 antir4 运行 结果 示意 
图 如 图 27-15 所 示 。 弹 出 一 个 对 话 框 ， 显 示 7 匹配 关键 字 hello 后 跟 标 识 符 parrt。 

















r r 
hello 
We hello parrt 
i 
OK png 


图 27-15 antlr4 运行 结果 示意 图 


Spark SQL 中 ANTLR4 的 应 用 : 

Spark 1.X 版 本 使 用 的 是 Scala 原生 的 parser 语法 解析 器 , Spark 2.2 版 本 不 同 于 Spark 1.X 
版 本 的 parser 语法 解析 器 ，Spark 2.2 版 本 使 用 的 是 第 三 方 语法 解析 器 工具 ANTLR4。 

Spark 2.2 SQL 语句 的 解析 采用 的 是 ANTLR4，ANTLR4 根据 spark-2.1.1\sql\catalyst\src\ 
main\antlr4\org\apache\spark\sql\catalyst\parser\SqlBase.g4 文件 自动 解析 生成 的 Java 类 : 词法 
解析 器 SqlBaseLexer 和 语法 解析 器 SqlBaseParser。 

SqlBaseLexer 和 SqlBaseParser 均 使 用 ANTLR4 自动 生成 的 Java 类 。 使 用 这 两 个 解析 器 
将 SQL 语句 解析 成 ANTLR 4 的 语法 树 结构 ParseTree。 然 后 在 parsePlan 中 使 用 AstBuilder 
(AstBuilder.scala) 将 ANTLR4 语法 树 结构 转换 成 Catalyst 表达 式 逻 辑 计划 。 

ANTLR4 自动 生成 Spark SQL 语法 解析 器 SqlBaseParser 类 等 Java 代码 。 摘 录 部 分 代码 
如 下 。 

SqlBaseParser.java 的 源码 如 下 。 


a QSuppressWarnings ({"all", "warnings", "unchecked", "unused", "cast"}) 

2. public class SqlBaseParser extends Parser { 

< static { RuntimeMetaData.checkVersion("4.7", RuntimeMetaData .VERSION); } 

4. 

所 < protected static final DFR[] _decisionToDFA; 

6. protected static final PredictionContextCache _sharedContextCache = 

he new PredictionContextCache(); 

8. public static final int 

395 T 0=1, T 1=2,T 2=3, T 3=4, T 4=5, T 5=6, T 6=7, SELECT=8, 
FROM=9, 

Oe Te 

人 public static final int 

了 RULE singleStatement = 0, RULE singleExpression = 1, RULE single 
TableIdentifier = 2, 

I 

14. public static final String[] ruleNames = { 

LS "singleStatement", "singleExpression", "singleTableIdentifier", 
"singleDataType", 

Os 

he private static final String[] _LITERAL NAMES = { 


a 
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18. ee tb Da i Se ed nt) Leds tl [bh 
RM 

19. AD Dn I ASAT DESTING TH "WARREN GROUP I 
Ua 

20. miGROUPTINGYm "SETS"", "COBE'", "ROLLUP'", "ORDER"™", "HAVING", 
TM 

1 UAT RAND EN ll NL LT 

”BETWEEN "， 

2 玫 全 

23. public SqlBaseParser (TokenStream input) { 

245 super (input); 

5 人 _interp = new ParserATNSimulator (this, ATN, decisionToDFA,_ 
sharedContextCache); 

26. } 

本 

之 8 


4. Spark SQL 工作 流程 


本 节 对 一 个 简单 的 Spark SQL 程序 进行 剖析 ， 讲 解 在 业务 代码 中 编写 的 SQL 语句 ， 在 
Spark SQL Catalyst 中 最 终 是 在 哪里 提交 Spark 框架 进行 执行 的 。 

1) Spark SQL 示例 剖析 

先 来 看 一 个 简单 的 Spark SQL 程序 。 
import sqlContext. 
val sqlContext = new org.apache.spark.sql.SsQLContext (sc) 
case class Student (name: String, age: Int) 
val student = sc.textFile("examples/src/main/resources/Student.txt"). 
map(_.split(",")) .map(p => Student (p(0), p(1).trim.toInt)) 
student .registerAsTable ("student") 
val agers = sql ("SELECT name FROM student WHERE age >= 13 AND age <= 19") 
agers.map(t => "Name: " + t(0)).collect().foreach(println) 

旦 序 逻 辑 解释 如 下 。 

第 1 行 代 码 ， 导 入 sqlContext 下 面 的 all。 

第 2 行 代码 ， 生 成 SQLContext， 也 就 是 运行 SparkSQL 的 上 下 文 环境 。 

第 3、4、5 行 代 码 ， 是 加 载 数 据 源 注册 table。 

第 6 行 代码 是 真正 的 入 口 ， 是 SQL 函数 ， 传 入 一 个 SQL 语句 ， 返 回 一 个 SchemaRDD。 
这 一 步 是 lazy 级 别 的 代码 ， 直 到 遇 到 第 7 行 代码 的 collect 这 个 action 时 ，sql 才 会 被 真正 
执行 。 

调用 sql 函数 ， 返 回 的 结果 是 创建 一 个 DataFrame，DataFrame 是 Dataset[Row] 的 别名 ， 
DataFrame 在 生成 的 时 候 就 调用 sessionState.sqlParser.parsePlan 方法 ，parsePlan 的 结果 会 生 
成 一 个 逻辑 计划 。 

当 调 用 Dataset 里 面 的 collect 方法 时 ， 会 初始 化 QueryExecutionp， 开 始 启动 执行 。 

Spark 2.1.1 版 本 的 Dataset.scala 的 源码 如 下 。 


和 private def collect (needCallback: Boolean): Array[T] = { 


AODP 


~] oO 





2 def execute(): Array[T] = withNewExecutionId { 

< 人 0 queryExecution.executedPlan.executeCollect () .map (boundEnc .fromRow) 
和 5 4 

Ss 


“6.. 
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0. 
1 


if (needCallback) { 
withCallback ("collect", toDF())( => execute()) 
} else { 
execute () 
} 


Spark 2.2.0 版 本 的 Dataset.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 通过 
withAction 方法 包 里 Dataset 的 执行 ， 跟踪 QueryExecution 查询 执行 及 时 间 成 本 ， 并 汇报 给 用 


户 注 册 的 
算 子 收集 
能 导致 


下 面 
行 过 程 中 


被 调用 时 








回调 函数 。collect 方法 返回 一 个 数组 , 此 数组 包含 数据 集 所 有 行 的 数据 , 运行 collect 
所 有 数据 到 应 用 程序 的 Driver 节点 中 ， 并 且 是 一 个 非常 大 的 数据 集 ，collect 方法 可 
utOfMemoryError。 





def collect(): Array[T] = withAction("collect", queryExecution) 
(collectFromPlan) 

private def collectFromPlan(plan: SparkPlan): Array[T] = { 
plan.executeCollect () .map (boundEnc .fromRow) 


是 Spark 2.1.1 中 QueryExecution 类 的 源码 。 QueryExecution 类 对 象 中 定义 了 SQL 执 
的 关键 步骤 ， 是 SQL 执行 的 关键 类 。QueryExecution 类 中 的 成 员 都 是 lazy 级 别 的 ， 
才 会 执行 。 只 有 等 到 程序 中 出 现 action 算 子 时 ， 才 会 调用 QueryExecution 类 中 的 


executedPlan 成 员 ， 原 先生 成 的 逻辑 执行 计划 才 会 被 优化 器 优化 ， 并 转换 成 物理 执行 计划 真 


正 地 被 系 


统 调用 执行 。 


QueryExecution 类 的 主要 成 员 定义 了 analyzer、optimizer 以 及 生成 物理 执行 计划 的 
SparkPlan。 最 终 调 用 executedPlan.execute 生成 RDD。 
Spark 2.1.1 版 本 的 QueryExecution.scala 的 源码 如 下 。 


:| 


/** 
* 执行 关联 查询 主要 的 工作 流程 :利用 Spark 的 设计 使 开发 人 员 很 容易 进入 查询 执行 的 中 间 阶 
* 段 。 虽 然 QueryExecution 不 是 一 个 公共 类 ， 但 要 避免 更 改 它们 ， 因 为 很 多 开发 人 员 都 使 
* 用 这 个 特性 进行 调试 
*/ 
class QueryExecution(val sparkSession: SparkSession, val logical: 
LogicalPlan) { 


// 将 来 要 实现 的 : 在 这 里 从 SessionState 会 话 状态 移动 优化 器 


protected def planner = sparkSession.sessionState.planner 


def assertAnalyzed(): Unit = { 
//Analyzer 尝试 try 块 外 部 调用 ， 以 避免 在 下 面 的 catch 块 中 再 次 调用 它 
analyzed 
try { 
sparkSession.sessionstate.analyzer.checkAnalysis (analyzed) 
Heatch 4 
case e: AnalysisException => 
val ae = new AnalysisException(e.message, e.line, e.startPosition, 
Option (analyzed)) 
ae.setSstackTrace (e.getStackTrace) 
throw ae 


ys 
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19> } 

20. 

1 def assertSupported() : Unit = { 

22, if (sparkSession.sessionState.conf.isUnsupportedOperationCheckEnabled) { 
23% UnsupportedOperationChecker.checkForBatch (analyzed) 

24. } 

2 } 

26. // 调 用 analyzer 解析 器 

27. lazy val analyzed: LogicalPlan = { 








28. SparkSession.setActiveSession (sparkSession) 

29. sparkSession.sessionState.analyzer.execute (logical) 

i 

SE 

32. lazy val withCachedData: LogicalPlan = { 

人 这 assertAnalyzed() 

34. assertSupported () 

EI sparkSession.sharedState.cacheManager .useCachedData (analyzed) 

xj 

37. // 调 用 optimizer 优化 器 

人 azy val optimizedPlan: LogicalPlan = sparkSession.sessionState.optimizer. 
execute (withCachedData) 

39. // 将 优化 后 的 逻辑 执行 计划 转换 成 物理 执行 计划 

40. azy val sparkPlan: SparkPlan = { 

A1, SparkSession.setActiveSession (sparkSession) 

42 // 将 来 要 实现 的 : 使 用 next 方法 ， 例 如 ， 从 计划 器 planner 返回 第 一 个 计划 plan, 现 

// 在 在 这 里 选择 最 佳 的 计划 

3 planner .plan (ReturnAnswer (optimizedPlan)) .next () 

44. 

45. 

46. //executedPlan 不 应 该 被 用 来 初始 化 任何 SparkPlan， 它 应 该 只 用 于 执行 

47. azy val executedPlan: SparkPlan = prepareForExecution(sparkPlan) 

48. 

49. /** 转 换 为 内 部 的 RDD， 避 免 复制 及 没有 编目 概要 */ 

50. azy val toRdd: RDD[InternalRow] = executedPlan.execute () 

ST 

52. /** 


* 准备 一 个 计划 [SparkPlan] ， 用 于 执行 Shuffle 算 子 和 内 部 行 格式 转换 的 需要 
3 */ 
54. protected def prepareForExecution(plan: SparkPlan): SparkPlan = { 
De preparations.foldLeft (plan) { case (sp, rule) => rule.apply(sp) } 
56: 下 
57. 
58. /** 为 了 执行 物理 计划 而 应 用 的 一 系列 规则 */ 
59. protected def preparations: Seq[Rule[SparkPlan]] = Seq( 


60. python.ExtractPythonUDFs, 

丰 王 = PlanSubqueries (sparkSession), 

2 EnsureRequirements (sparkSession.sessionstate.conf), 

3 CollapseCodegenStages (sparkSession.sessionSstate.conf), 
64. ReuseExchange (sparkSession.sessionstate.conf), 

65. ReuseSubquery (sparkSession.sessionState.conf)) 

66 . 

bs protected def stringOrError[A] (f: => A): String = 

68. try f.tostring catch { case e: AnalysisException => e.toString } 
69 

了 站 < 


71- /it# 作 为 一 个 Hive 兼容 序列 的 字符 串 返 回 结果 。 对 于 本 地 命令 ， 执 行 通 过 Hive 返回 */ 
2 def hiveResultSstring(): Seq[String] = executedPlan match { 
时 case ExecutedCommandExec (desc: DescribeTableCommand) => 


"3 
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74. SQLExecution.withNewExecutionId(sparkSession, this) { 

De // 如 果 是 一 个 描述 Hive 表 的 描述 命令 ,我 们 要 输出 的 格式 与 Hive 相似 

76. desc.run(sparkSession) .map { 

Ts case Row (name: String, dataType: String, comment) => 

78 . Seq (name, dataType, 

79. Option (Comment .asInstanceOf [String]) .getOrElse ("")) 

80. .map(s => String.format(s"%-20s", s)) 

SEE -mkString("\t") 

82 . } 

83. "| 

84. //SHOW TABLES 在 Hive 中 仅 输出 表 的 名 称 ， 我 们 输出 数据 库 、 表 名 等 ， 是 临时 的 内 容 

有 case command: ExecutedCommandExec if command.cmd.isInstanceOof[Show 

TablesCommand] => 

86. command .executeCollect () .map( .getSstring(1)) 

9 了 case command: ExecutedCommandExec => 

88 . command .executeCollect () .map( -getString(0) ) 

D9 case other => 

90 . SQLExecution.withNewExecutionId(sparkSession，this) { 

9 王 val result: Seq[Seq[Any]] = other.executeCollectPublic() .map 
(_.toSeq) .toSeq 

92. // 我 们 需要 的 类 型 ， 所 以 我 们 可 以 输出 结构 的 字段 名 称 

93.。 Val types = analyzed.output.map( .dataType) 

94. // 重 新 格式 化 匹配 Hive 的 制 表 符 分 隔 的 输出 result.map (_ .zip (types) .map 
(toHiveString) ) .map( -mkString("\t") ) .toSedq 

952 } 

96. 

9 


98. /** 格 式 化 数据 (基于 给 定 的 数据 类 型 》， 并 返回 字符 串 表示 */ 
99. private def toHiveString(a: (Any, DataType)): String = { 





00 . val primitiveTypes = Seql(StringType, IntegerType, LongType, 
DoubleType, FloatType, 
01. BooleanType, ByteType, ShortType, DateType, TimestampType, 
BinaryType) 
02 . 
03 . /** 实 现 将 Hive 的 TimestampWritable 类 型 转换 为 字符 串 类 型 */ 
04. def formatTimestamp (timestamp: Timestamp): String = { 
O05 val timestampString = timestamp.toString 
06. if (timestampString.length() > 19) { 
07s if (timestampString.length() == 21) { 
08 . if (timestampString.substring(19) .compareTo(".0") == 0) { 
09. return DateTimeUtils.threadLocalTimestampFormat .get() . 
format (timestamp) 
10. } 
us } 
下 return DateTimeUtils.threadLocalTimestampFormat .get () .format 
(timestamp) + 
HE timestampString.-substring(19) 
114. } 
2 
Tos return DateTimeUtils.threadLocalTimestampFormat.get().format 
(timestamp) 
Es J 
118. 
9 def formatDecimal (d: java.math.BigDecimal): String = { 
et if (d.compareTo (java.math.BigDecimal.ZERO) == 0) { 
El java.math.BigDecimal .ZERO.toPlainstring 
这 } else { 
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d.stripTrailingZeros() .toPlainString 
} 
L 


/** Hive 输出 的 结构 与 顶层 的 属性 字段 的 输出 略 有 不 同 */ 
def toHiveStructString(a: (Any, DataType)): String = a match { 
case (struct: Row, StructType (fields)) => 
struct.toSeq.zip (fields) .map { 
case (v, t) => s""""${t.name}":${toHiveStructstring(v, 
t.dataType)}""" 
KRSET3GC 
case (seq: Seq[_]，RrrayType (typ，_) ) => 
seq.map (V => (v, typ)) .map (toHiveStructString) .mkString("["， 
mn 
case (map: Map[_，_]，MapTYype (kType, vType, _)) => 
map.map { 
case (key, value) => 
toHiveStructString ( (key, kType)) +":"+toHiveStructString 
((value, vType)) 
1EoSeq: sorted-.mkotring( i wer m3") 
case (nulle 0 => nal 
case. (ss String: StringType) => MN 3 T+ MN 
case (decimal, DecimalType()) => decimal.toString 
case (other, tpe) if primitiveTypes contains tpe => other. 
toString 
} 


a match { 
case (struct: Row, StructType (fields)) => 
struct.toSeq.zip (fields) .map { 
case (v, t) => s""""${t.name}":${toHivestructstring(v, 
t.dataType)}""" 
}.mkstring("{", ",", "}") 
case (seq: Seq[ ], ArrayType(typ, )) => 
seq.map(v => (v, typ)) .map (toHiveStructString) .mkString(" ["， 
mm， 
case (map: Mapl apTyvpe(kTyDe vivper 0) => 
map.map { 
case (key, value) => 
toHiveSstructSstring( (key, kType)) +":"+toHiveStructString 
((value, vType)) 
lt0Seq:sorted.mkSotring("{t™, me, Hh) 
case. (null, _ ) => “NULL 
case (d: Int, DateType) => new java.util.Date (DateTimeUtils. 
daysToMillis(d)).tostring 
case (t: Timestamp, TimestampType) => formatTimestamp (t) 
case (bin: Array[Byte], BinaryType) => new String (bin, Standard 
Charsets.UTF 8) 
case (decimal: java.math.BigDecimal, DecimalType()) => formatDecimal 
(decimal) 
case (other, tpe) if primitiveTypes.contains (tpe) => other. 
toString 
} 


def simpleString: String = { 
s"""== Physical Plan == 
I${stringOrError (executedPlan.treeString (verbose = false))} 
wen StripMargin.trim 
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之 02< 
2035 
204. 
205s 


- 下 


二 override def toString: String = { 
区 def output = Utils.truncatedstring( 


analyzed.output .map(o => s"${0.name}: ${0.dataType.simplestring}"), 


nm， 
器 val analyzedPlan = Sedq( 
stringOrError (output), 
要 stringOrError (analyzed.treeString (verbose = true) ) 


本 ) .filter( .nonEmpty) .mkString("\n") 


s"""== Parsed Logical Plan == 


二 I${stringOrError (1ogical.treeString(verbose = true))} 


== Analyzed Logical Plan == 
lI$analyzedPlan 
== Optimized Logical Plan == 


== Physical Plan == 
I${stringOrError (executedPlan.treeString (verbose 
""".stripMargin.trim 


} 


/** 用 于 调试 查询 执行 命令 的 特殊 命名 空间 */ 
//scalastyle: 关 
object debug { 


//scalastyle: 打开 


/** 


I${stringOrError (optimizedPlan.treeString (verbose = true))} 


= true))} 


* 打 印 到 标准 输出 在 这 个 计划 中 所 有 生成 的 代码 ( 即 每 个 WholeStageCodegen 子 树 


* 的 输出 ) 

*/ 

def codegen(): Unit = { 
//scalastyle: 关闭 打印 


(executedPlan)) 
//scalastyle: 打开 打印 
} 
3. 
} 


println(org.apache.spark.sql.execution.debug.codegenString 


Spark 2.2.0 版 本 的 QueryExecution.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 。 
删除 上 段 代码 108 行 到 121 行 的 formatTimestamp 时 间 戳 转换 方法 代码 , 在 以 下 代码 


口 


口 


口 


OO 心 wm 


的 第 9 行 调用 DateTimeUtils 的 timestampToString 方法 进行 转换 。 
Show Tables 命令 解析 时 ， 增 加 ShowTablesCommand 命令 是 否 为 扩 
判断 。 





展 命令 的 逻辑 


新 增 completeString 方法 ， 传 入 appendStats 统计 布尔 值 的 参数 ， 如 为 True， 则 触发 


计算 逻辑 计划 统计 。 


case command @ ExecutedCommandExec(s: ShowTablesCommand) if !s.is 


Extended => 
command.executeCollect() .map( .getstring(1)) 
case OFher > 


case (d: Date, DateType) => 
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» DateTimeUtils.dateToString (DateTimeUtils.fromJavaDate (d)) 
语 case (t: Timestamp, TimestampType) => 
大 DateTimeUtils.timestampToString (DateTimeUtils.fromJavaTimestamp (t), 


DateTimeUtils.getTimeZone (sparkSession.sessionState.conf. 
sessionLocalTimeZone)) 


11. override def toString: String = completeString (appendstats = false) 
12. def toStringWithtats: String = CompleteString(appendStats = true) 


14. val optimizedqPlanString = if (appendStats) { 


A // 触 发 计算 逻辑 计划 统计 

和 optimizedPlan.stats (sparkSession.sessionState.conf) 

汪 optimizedPlan.treeString (verbose = true, addSuffix = true) 
:党 } else { 

2 optimizedPlan.treeString (verbose = true) 

人 20. 1 

二 

22. |== Optimized Logical Plan == 

3 I${stringOrError (optimizedPlanString) } 

a 


2) Spark SQL 执行 流程 


Spark SQL 执行 流程 图 如 图 27-16 所 示 。 
Catalyst 
优化 器 


SQL 
分 析 器 
2 3 
SQL 语句 或 未 解析 的 语法 分 析 后 的 1 优化 后 的 
HQL 语 句 逻辑 计划 逻辑 计划 逻辑 计划 
生成 RDD 
[LE 迁 代 器 SparkPlanner 继 承 自 


7 [物理 计划 ] SparkStrategies， 从 迎 辑 


a 4、 ”计划 转换 为 物理 计划 


next () 
下 

















































已 准备 的 Spark 


计划 Spark 策 略 计划 

















包含 各 种 策略 


Spark 计 划 





LeftSemijoin、HashJoin、 
PartialAggregation 、 
InMemoryScans 等 


转换 执行 前 





备 








图 27-16 Spark SQL 执行 流程 图 


以 上 整个 流程 可 以 总 结 为 : 
(1) sql parser(parse) 生 成 unresolved logical plan。 
(2) analyzer(analysis) 生 成 analyzed logical plan。 
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(3) optimizer(optimize)optimized logical plan。 

(4) spark planner(use strategies to plan) 生 成 physical plan。 

(5) 办 代 器 进行 next 迭代 ， 采 用 不 同 Strategies 生成 spark plan。 
(6) spark plan(prepare) prepared spark plan 。 

(7) call ttRDD (execute0 函 数 调用 ) 执行 SQL 生成 RDD。 





27.1.2 Spark SQL 调 优 参 数 及 调 优 最 佳 实践 


对 于 某 些 工 作 负 载 ， 可 以 通过 缓存 内 存 中 的 数据 或 打开 一 些 实验 选项 来 提高 性 能 。 

缓存 内 存 中 的 数据 (Caching Data In Memory) : Spark SQL 可 以 通过 调用 spark.catalog. 
cacheTable("tableName") 或 使 用 dataFrame.cacheO 以 内 存 中 的 列 格式 来 缓存 表 。 然 后 ，Spark 
SQL 将 仅 扫描 所 需 的 列 ， 并 将 自动 调整 压缩 以 最 小 化 内 存 使 用 来 减少 GC 压力 。 可 以 调用 
spark.catalog.uncacheTable("tableName") 从 内 存 中 删除 表 。 

内 存 绥 存 的 配置 可 以 使 用 SparkSession 的 setConf 方法 ， 或 在 SQL 语句 中 运行 SET 
key=value 来 配置 内 存 中 的 缓存 。 表 27-1 为 内 存 缓冲 配置 表 。 


表 27-1 内 存 缓冲 配置 表 








如 果 设 置 为 tue，Spark SQL 将 会 根据 数据 统 
计 信 息 , 自动 为 每 列 选择 单独 的 压缩 编码 方式 
控制 列 式 缓存 批量 的 大 小 。 增 大 批量 大 小 可 以 
提高 内 存 利 用 率 和 压缩 率 ， 但 同时 也 会 带 来 
OOM (Out Of Memory) 的 风险 


以 下 选项 也 可 用 于 调整 查询 执行 的 性 能 。 这 些 选项 有 可 能 在 将 来 的 版 本 中 被 废弃 ， 因 为 
更 多 的 优化 是 自动 执行 的 。 表 27-2 为 SQL 查询 配置 表 。 


表 27-2 SQL 查询 配置 表 


属 性 名 含义 
Spark.sql files.maxPartitionBytes 读 取 文 件 并 放 入 一 个 分 区 中 的 最 大 字 节 数 
小 文件 合并 阔 值 。 打 开 文 件 的 估算 成 本 ， 按 
照 同一 时 间 能 够 扫描 的 字 节 数 来 测量 。 将 多 
Spark.sql.files.openCostInBytes 4 194 304 (4MB) 个 文件 放 入 分 区 时 使 用 。 最 好 过 度 估 计 ， 那 
么 具有 小 文件 的 分 区 将 比 具 有 较 大 文件 的 分 
区 《〈 先 被 调度 ) 更 快 
广播 变量 做 Join 时 的 等 待 时 间 (s) 
配置 Join 操作 时 ， 能 够 作为 广播 变量 的 最 大 
table 的 大 小 。 设 置 为 -1， 表 示 禁 用 广播 。 注 
意 ， 目 前 的 元 数据 统计 仅 支 持 Hive metastore 
中 的 表 ， 并 且 需 要 运行 命令 : ANALYSE 
TABLE <tableName> COMPUTE STATISTICS 
noscan 
配置 数据 混 洗 (Shufftle) 时 (Join 或 者 聚合 
操作 ) 使 用 的 分 区 数 


spark.sql.inMemoryColumnarStorage.compressed 








spark.sql.inMemoryColumnarStorage.batchSize 











Spark.sql.broadcastTimeout 





Spark.sql.autoBroadcastJoinThreshold | 10 485 760 (10 MB) 


Spark.sql.Shuffle.Partitions 
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常用 的 一 些 Spark SQL 设置 : 

(1) Spark.sql.Shuffle.Partitions=200 

并 行 度 的 优化 ， 这 要 根据 自己 集群 的 配置 来 调节 。 

(2) Spark.sql.files.maxPartitionBytes=128MB 

调节 每 个 Partition 大 小 ， 默 认 Partition 是 128MB， 可 以 调 大 一 点 。 

(3) Spark.sql.files.openCostmBytes=4MB 

很 多 小 文件 浪费 Task， 合 并 成 一 个 Task， 提 高 处 理性 能 ， 可 以 将 值 调 大 。 
(4) Spark.sql.autoBroadcastJoinThreshold=10MB 

两 个 表 Shuffle， 如 Join。 这 个 最 有 用 ， 是 经 常 使 用 的 。 

默认 是 10MB， 调 成 100MB， 甚 至 是 1GB。 





综合 实践 例 程 : 

ll Val conf = new SparkConf () 

.SetAppName ("moviesRatings") 

| .setMaster ("local") 

4 // 可 调 优 参 数 

5. .set ("Spark.sql.Shuffle.Partitions", "4") // 调 节 并 行 度 

6 .set ("Spark.sql.files.maxPartitionBytes", "256") // 调 节 每 个 Partition 大 小 
学 .set ("Spark.sql.files.openCostInBytes", "4") // 小 文件 合并 

8 .set ("Spark.sql.autoBroadcastJoinThreshold", "100") 


/1Join 时 小 表 的 大 小 
27.2 Spark Streaming 调 优 原理 及 调 优 最 佳 实践 


本 节 讲 解 Spark Streaming 调 优 原理 ;以 及 Spark Streaming 调 优 参数 及 调 优 最 佳 实践 。 
27.2.1 Spark Streaming 调 优 原 理 


Spark Streaming 提供 了 高 效 便捷 的 流 式 处 理 模 式 ， 但 是 在 有 些 场景 下 ， 使 用 默认 的 配置 
达 不 到 最 优 ， 甚 至 无 法 实时 处 理 来 自 外 部 的 数据 ， 这 时 我 们 就 需要 对 默认 的 配置 进行 相关 修 
改 。 由 于 现实 中 场景 和 数据 量 的 多 样 性 ， 所 以 我 们 无 法 设置 一 些 通用 的 配置 ， 我 们 需要 根据 
数据 量 、 场 景 的 不 同 设置 不 一 样 的 配置 ， 这 里 只 是 给 出 建议 ， 这 些 调 优 不 一 定 适用 于 你 的 程 
序 ， 一 个 好 的 配置 是 需要 慢 慢 地 尝试 的 。 


1. 设置 合理 的 批 处 理 时 间 (batchDuration) 


构建 StreaminGContext 时 ， 需 要 传 进 一 个 参数 ， 用 于 设置 Spark Streaming 批 处 理 的 时 间 
间隔 。Spark 会 每 隔 batchDuration 时 间 去 提交 一 次 Job， 如 果 你 的 Job 处 理 的 时 间 超 过 了 
batchDuration 的 设置 ， 就 会 导致 后 面 的 作业 无 法 按时 提交 ， 随 着 时 间 的 推移 ， 越 来 越 多 的 作 
业 被 拖延 ， 最 后 导致 整个 Streaming 作业 被 阻塞 ， 这 就 间接 地 导致 无 法 实时 处 理 数据 ， 这 肯 
定 不 是 我 们 想 要 的 。 

另外 ， 虽 然 batchDuration 的 单位 可 以 达到 毫秒 级 别 ， 但 是 经 验 告 诉 我 们 ， 如 果 这 个 值 过 
小 ， 将 会 导致 因 频 繁 提交 作业 ， 从 而 给 整个 Streaming 带 来 负担 ， 所 以 尽量 不 要 将 这 个 值 设 
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置 为 小 于 500ms。 在 很 多 情况 下 ， 设 置 为 500ms 性 能 就 很 不 错 了 。 

那么 ， 如 何 设 置 一 个 好 的 值 呢 ? 可 以 先 将 这 个 值 置 为 比较 大 的 值 (如 10s) ， 如 果 我 们 
发 现 作 业 很 快 被 提交 完成 ， 可 以 进一步 减 小 这 个 值 ， 直 到 Streaming 作业 刚好 能 够 及 时 处 理 
完 上 一 个 批 处 理 的 数据 ， 那 么 这 个 值 就 是 我 们 要 的 最 优 值 。 


2. 增加 Job 并 行 度 


我 们 需要 充分 地 利用 集群 的 资源 , 尽 可 能 地 将 Task 分 配 到 不 同 的 节点 ,一 方面 可 以 充分 
利用 集群 资源 ， 另 一 方面 还 可 以 及 时 地 处 理 数据 。 例 如 ,我们 使 用 Streaming 接收 来 自 Kafka 
的 数据 ， 可 以 对 每 个 Kafka 分 区 设置 一 个 接收 器 ， 这 样 可 以 达到 负载 均衡 ， 及 时 处 理 数据 。 
再 如 ， 类 似 reduceByKey0O 和 Join 函数 ， 都 可 以 设置 并 行 度 参数 。 


3. 使 用 Kryo 系 列 化 


Spark 默认 的 是 使 用 Java 内 置 的 系列 化 类 ， 虽 然 可 以 处 理 所 有 继承 自 java.io.Serializable 
的 系列 化 的 类 ， 但 是 其 性 能 不 佳 ， 如 果 这 个 成 为 性 能 瓶颈 ， 可 以 使 用 Kryo 系列 化 类 。 使 用 
系列 化 数据 可 以 很 好 地 改善 GC 行为 。 


4. 缓存 需要 经 常 使 用 的 数据 


对 一 些 经 常 使 用 到 的 数据 ， 我 们 可 以 显 式 地 调用 RDD.Cache0 来 缓存 数据 ， 这 样 也 可 以 
加 快 数据 的 处 理 ， 但 是 我 们 需要 更 多 的 内 存 资 源 。 


5. 清除 不 需要 的 数据 


随 着 时 间 的 推移 ， 有 些 数据 是 不 需要 的 ， 但 是 这 些 数据 缓存 在 内 存 中 ， 会 消耗 宝贵 的 内 
存 资 源 ， 我 们 可 以 通过 配置 Spark.cleaner.ttl 为 一 个 合理 的 值 ， 但 是 这 个 值 不 能 过 小 ， 因 为 如 
果 后 面 计算 需要 用 的 数据 被 清除 ， 会 带 来 不 必要 的 麻烦 。 而 且 ， 我 们 还 可 以 配置 选项 
Spark.streaming.unPersist 为 tue (默认 是 true) 来 更 智能 地 去 持久 化 (unPersist) RDD。 这 个 
配置 使 系统 找 出 那些 不 需要 经 常 保留 的 RDD， 然 后 去 持久 化 它们 。 这 可 以 减少 Spark RDD 
的 内 存 使 用 ， 也 可 能 改善 垃圾 回收 的 行为 。 

6. 设置 合理 的 GC 

GC 是 程序 中 最 难 调 的 一 块 。 不 合理 的 GC 行为 会 给 程序 带 来 很 大 影响 。 在 集群 环境 下 ， 
我 们 可 以 使 用 并 行 Mark-Sweep 垃圾 回收 机 制 ， 虽 然 这 消耗 更 多 的 资源 ， 但 是 我 们 还 是 建议 
开启 。 可 以 如 下 配置 : 

a Spark.Executor.extraJavaOptions=-XX: +UseConcMarkSweepGC 

7. 设置 合理 的 CPU 资源 数 

很 多 情况 下 ，Streaming 程序 需要 的 内 存 不 是 很 多 ， 但 是 需要 的 CPU 很 多 。 在 Streaming 
程序 中 ，CPU 资源 的 使 用 可 以 分 为 两 大 类 : (D 用 于 接收 数据 ，@ 用 于 处 理 数据 。 我 们 需要 


设置 足够 的 CPU 资源 ， 使 得 有 足够 的 CPU 资源 用 于 接收 和 处 理 数据 ， 这 样 才能 及 时 高 效 地 
处 理 数据 。 
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27.2.2 Spark Streaming 调 优 参数 及 调 优 最 佳 实践 


Spark Streaming 调 优 参数 之 并 行 度 解析 ， 在 Spark 集群 资源 允许 的 前 提 下 ， 可 以 提高 数 
据 接 收 、 数 据 处 理 的 并 行 度 。 

数据 接收 的 并 行 度 调 优 ， 有 多 个 方面 。 

1) InputDStream 的 并 行 度 

Spark Streaming 应 用 程序 中 涉及 数据 接收 的 第 一 个 DStream 是 InputDStream。Spark 
Streaming 数据 接收 方式 可 分 别 使 用 Receiver 方式 和 No Receiver 方式 (生产 环境 建议 使 用 ) 。 

对 Receiver 方式 : 每 个 mputDStream 都 会 在 某 个 Worker 节点 上 创建 一 个 Receiver。 写 
应 用 程序 时 ， 可 以 创建 多 个 InputDStream， 来 接收 同一 数据 源 数据 。 还 可 以 通过 配置 ， 让 这 
些 DStream 分 别 接收 数据 源 的 不 同 分 区 的 数据 ， 最 大 DStream 个 数 可 以 达到 数据 源 提供 的 分 
区 数 。 例 如 ， 一 个 接收 两 个 Kafka Topic 数据 的 输入 DStream， 可 以 被 拆 分 成 两 个 接收 不 同 
Topic 数据 的 DStream。 最 后 ， 可 以 在 程序 中 把 多 个 InputDStream 再 合并 为 一 个 DStream, 进 
行 后 续 处 理 。 下 面 给 出 基于 Kafka 的 Java 代码 。 

多 个 InputDStream 合并 为 一 个 DStream 的 Java 代码 如 下 。 








1. int numStreams = 5; 
2. List<JavaPairDStream<String, String>> kafkaStreams = new ArrayList< 
JavaPairDStream<String, String>> (numStreams); 


3. for (int i = 0; i < numStreams; i++) { 

4. kafkaStreams .add (KafkaUtils.createStream(...)); 

与 

6. JavaPairDStream<String, String> unifiedStream = streaminGContext. 
union (kafkaStreams .get (0), kafkaStreams.subList(1, kafkaStreams.size())); 

Ms 


2) Task 的 并 行 度 

数据 接收 使 用 的 BlockGenerator 里 有 一 个 RecurringTimer 类 型 的 对 象 blockImtervalTimer， 
会 周期 性 地 发 送 BlockGenerator 消息 ， 进 而 周期 性 地 生成 和 存储 一 个 Block。 这 个 周期 对 应 
有 一 个 配置 参数 Spark.streaming.blockImnterval。 这 个 时 间 周 期 的 缺 省 值 是 200ms。 

读 写 Block， 会 用 到 BlockManager。BlockManager 定义 于 Spark Core 中 ， 是 Storage 模 
块 与 其 他 模块 交互 最 主要 的 类 ， 提 供 了 读 和 写 Block 的 接口 。 这 里 的 Block， 实 际 上 就 对 应 
了 RDD 中 提 到 的 Partition， 每 个 Partition 都 会 对 应 一 个 Block。 而 Spark Streaming 按 Batch 
Interval 来 进行 一 次 数据 接收 和 处 理 , 所 以 Batch Interval 内 的 Block 个 数 ,就 是 RDD 的 Partition 
数 ， 也 就 是 RDD 的 并 行 Task 数 。 因 此 ，Task 的 并 行 度 等 于 Batch Interval / Block Interval。 
例如 ，Batch Interval 是 2s，Block Interval 是 200ms， 则 Task 并 行 度 为 10。 

通过 调 小 Block Interval, 可 以 提高 Task 并 行 度 .但 建议 一 般 不 让 Block Interval 低 于 50ms。 

3) 数据 处 理 前 的 重 分 区 

多 输入 流 或 者 多 Receiver 的 一 个 可 选 方法 是 : 明确 地 重新 分 配 输入 数据 流 ， 即 在 进一步 
处 理 数据 前 ,利用 DStream .rePartition(<number of Partitions>) 重 新 分 区 ， 把 接收 的 数据 分 发 到 
集群 上 。 

4) 数据 处 理 的 并 行 度 

如 果 运 行 在 计算 Stage 上 的 并 发 任务 数 不 足够 大 ， 就 不 会 充分 利用 集群 的 资源 。 例 如 ， 


bg 
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对 于 分 布 式 reduce 操作 ， 如 reduceByKey 和 reduceByKeyAndWindow， 默 认 的 并 发 任务 数 通 
过 配置 属性 Spark.default.parallelism 来 确定 .可 以 通过 参数 PairDStreamFunctions 传递 并 行 度 ， 
或 者 设置 参数 Spark.default.parallelism 修改 默认 值 。 

5) 内 存 

Spark Streaming 应 用 需要 的 集群 内 存 资源 ， 是 由 使 用 的 转换 操作 类 型 决定 的 。 例 如 ， 如 
果 想 使 用 一 个 窗口 长 度 为 10 min 的 窗口 操作 ， 那 么 集群 就 必须 有 足够 的 内 存 来 保存 10 min 
内 的 数据 。 如 果 想 使 用 updateStateByKey 来 维护 许多 Key 的 state， 那 么 内 存 就 必须 足够 大 。 
反 过 来 说 ， 如 果 想 做 一 个 简单 的 map-filter-store 操作 ， 需 要 使 用 的 内 存 就 很 少 。 

通常 ， 通 过 Receiver 接收 到 的 数据 会 使 用 StorageLevel MEMORY AND DISK SER 2 
持久 化 级 别 来 进行 存储 ， 因 此 无 法 保存 在 内 存 中 的 数据 会 洲 写 到 磁盘 上 ， 而 溢 写 到 磁盘 上 ， 
是 会 降低 应 用 的 性 能 的 。 因 此 ， 通 常 建议 为 应 用 提供 它 需 要 的 足够 的 内 存 资源 。 建 议 在 一 个 
小 规模 的 场景 下 测试 内 存 的 使 用 量 ， 并 进行 评估 。 

6) 序列 化 。 

Spark Streaming 默认 将 接收 到 的 数据 序列 化 存储 ， 以 减少 内 存 使 用 。 序 列 化 和 反 序 列 化 
需要 更 多 的 CPU 时 间 、 更 加 高 效 的 序列 化 方式 (Kryo) 。 自 定义 的 序列 化 接口 可 以 更 高 效 地 
使 用 CPU。 使 用 Kryo 时 ， 一 定 要 考虑 注册 自 定 义 的 类 ， 并 且 禁 用 对 应 引用 的 tracking 
(Spark.kryo.referenceTracking) 。 

在 流 式 计 算 的 场景 下 ， 有 两 种 类 型 的 数据 需要 序列 化 。 

(1) 输入 数据 : 默认 情况 下 ， 接 收 到 的 输入 数据 是 存储 在 Executor 的 内 存 中 的 ， 使 用 的 
持久 化 级 别 是 StorageLeveLMEMORY AND_DISK _SER_2。 这 意味 着 , 数据 被 序列 化 为 字 节 ， 
从 而 减 小 GC 开销 ， 并 且 会 复制 ， 以 进行 Executor 失败 的 容错 。 因 此 ， 数 据 首 先 会 存储 在 内 
存 中 ， 然 后 在 内 存 不 足 时 会 溢 写 到 磁盘 上 ， 从 而 为 流 式 计算 保存 所 有 需要 的 数据 。 这 里 的 序 
列 化 有 明显 的 性 能 开销 一 一 Receiver 必须 反 序 列 化 从 网 络 接收 到 的 数据 ， 然 后 再 使 用 Spark 
的 序列 化 格式 序列 化 数据 。 

(2) 流 式 计算 操作 生成 的 持久 化 RDD: 流 式 计算 操作 生成 的 持久 化 RDD， 可 能 会 持久 
化 到 内 存 中 。 例 如 ， 窗 口 操作 默认 就 会 将 数据 持久 化 在 内 存 中 ， 因 为 这 些 数据 后 面 可 能 会 在 
多 个 窗口 中 被 使 用 ， 并 被 处 理 多 次 。 然 而 ， 不 像 Spark Core 的 默认 持久 化 级 别 ， 
StorageLeveLMEMORY _ ONLY，DStream 默认 持久 化 级 别 是 MEMORY ONLY _SER， 默 认 
就 会 减 小 GC 开销 。 

在 一 些 特殊 的 场景 中 ， 例 如 需要 为 流 式 应 用 保持 的 数据 总 量 并 不 是 很 多 ， 也 许可 以 将 数 
据 以 非 序列 化 的 方式 进行 持久 化 ， 从 而 减少 序列 化 和 反 序 列 化 的 CPU 开销 , 而 且 又 不 会 有 太 
昂贵 的 GC 开销 。 举 例 来 说 ， 如 果 是 数秒 的 batch interval， 并 且 没有 使 用 Window 操作 ， 那 
么 可 以 考虑 通过 显 式 地 设置 持久 化 级 别 ， 来 禁止 持久 化 时 对 数据 进行 序列 化 。 这 样 就 可 以 减 
少 用 于 序列 化 和 反 序 列 化 的 CPU 性 能 开销 ， 并 且 不 用 承担 太 多 的 GC 开销 。 

7) Batch Interval 

要 确保 Spark Streaming 应 用 程序 在 集群 环境 下 稳定 运行 ,系统 必须 尽快 处 理 接收 的 数据 。 
处 理 数 据 的 速度 要 跟 上 数据 流入 的 速度 ， 即 批 次 处 理 时 间 必 须 小 于 批 次 间隔 时 间 。 通 过 查看 
志 可 以 了 解 Total delay， 如 果 delay 小 于 Batch Interval， 则 系统 稳定 运行 。 

如 果 Delay 一 直 增加 ， 则 说 明 系 统 的 处 理 速度 跟 不 上 数据 输入 速度 ， 要 做 调整 。 要 想 有 
一 个 稳定 的 配置 ， 可 以 尝试 提升 数据 处 理 的 速度 ， 或 者 增加 Batch Interval。 临 时 性 的 数据 增 
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长 导致 暂时 的 延迟 增长 ， 可 以 被 认为 是 合理 的 ， 只 要 延迟 情况 可 以 在 短 时 间 内 恢复 即 可 。 

8) Task 

任务 的 提交 和 分 发 都 会 有 延迟 ， 需 要 注意 Batch Interval 不 能 太 小 。 可 采取 以 下 措施 : 

口 任务 Kryo 序列 化 可 以 减少 任务 大 小 ， 减 少 发 送 到 Worker 节点 的 时 间 。 

口 Standalone 模式 、 粗 粒度 Mesos 模式 下 的 Spark， 比 细 粒 度 模式 有 更 低 短 延 迟 。 

9) JVM GC 

GC 会 影响 任务 的 运行 。 采取 不 同 策略 , 以 减 小 GC 对 Job 运行 的 影响 。 降 低 系统 和 厨 叶 量 ， 
就 能 减 小 GC 的 停顿 。 

对 于 流 式 应 用 来 说 ， 如 果 要 获得 低 延 迟 ， 肯 定 不 想 有 因为 VM 垃圾 回收 导致 的 长 时 间 
延迟 。 有 很 多 参数 可 以 帮助 降低 内 存 使 用 和 GC 开销 。 

(1) DStream 的 持久 化 : 输入 数据 和 某 些 操作 生产 的 中 间 RDD， 默 认 持久 化 时 都 会 序列 
化 为 字 节 。 与 非 序列 化 的 方式 相 比 ， 这 会 降低 内 存 和 GC 开销 。 使 用 Kryo 序列 化 机 制 可 以 进 
一 步 减少 内 存 使 用 和 GC 开销 ,进一步 降低 内 存 使 用 率 , 可 以 对 数据 进行 压缩 , 由 Spark.RDD. 
compress 参数 控制 (默认 为 false) 。 

(2) 清理 旧 数据 : 默认 情况 下 ， 所 有 输入 数据 和 通过 DStream 的 转换 操作 生成 的 持久 化 
RDD,， 会 自动 被 清理 。Spark Streaming 何 时 清理 这 些 数据 ， 取 决 于 转换 操作 类 型 。 例 如 ， 在 
使 用 窗口 长 度 为 10min 内 的 Window 操作 ，Spark 会 保持 10min 以 内 的 数据 ， 时 间 过 了 以 后 ， 
就 会 清理 旧 数 据 。 但 是 ， 在 某 些 特殊 场景 下 ， 如 Spark SQL 和 Spark Streaming 整合 使 用 时 ， 
在 异步 开启 的 线程 中 ， 使 用 Spark SQL 针对 Batch RDD 进行 查询 。 那 么 就 需要 让 Spark 保存 
更 长 时 间 的 数据 ， 直 到 Spark SQL 查询 结束 。 可 以 使 用 StreaminGContext.remember 方法 来 
实现 。 

(3) CMS 垃圾 回收 器 : CMS 垃圾 回收 器 使 用 并 行 的 mark-sweep 垃圾 回收 机 制 ， 用 来 保 
持 GC 低 开 销 ， 所 以 推荐 使 用 。 虽 然 并 行 的 GC 会 降低 吞吐 量 ， 但 是 还 是 建议 使 用 它 来 减少 
Batch 的 处 理 时 间 ( 降 低 处 理 过 程 中 的 GC 开销 ) 。 如 果 要 使 用 , 那么 要 在 Driver 端 和 Executor 
端 都 开启 。 有 具体 做 法 是 用 Spark-Submit 提交 应 用 程序 执行 时 ， 增 加 如 下 两 个 设置 。 

1. --Driver-java-options "-XX: +UseConcMarkSweepGC" 

2. --conf "Spark.Executor.extraJavaOptions=-XX: +UseConcMarkSweepGC" 














27.3 ”Spark GraphX 调 优 原理 及 调 优 最 佳 实践 


本 节 讲 解 Spark GraphX 调 优 原理 ， 以 及 Spark GraphX 调 优 参数 及 调 优 最 佳 实践 。 
27.3.1 Spark GraphX 调 优 原 理 


在 分 布 式 系统 中 ， 往 往 倾 向 于 用 大 量 的 小 的 低 配 机 器 ， 来 完成 巨大 的 计算 任务 。 其 思想 
是 : 即便 再 复杂 的 计算 ， 只 要 将 大 数据 分 解 为 足够 小 的 数据 片 ， 总 能 在 足够 多 的 机 器 上 通过 
性 能 的 降低 和 时 间 的 拖延 ， 来 完成 计算 任务 。 但 是 ， 很 遗憾 ， 在 图 计算 这 样 的 场景 下 ， 尤 其 
是 GraphX 的 设计 框架 下 ， 这 是 行 不 通 的 。 

要 发 挥 GraphX 的 最 佳 性 能 ， 最 少 要 有 128GB 以 上 的 内 存 。 
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主要 原因 有 两 个 : 

1) 节点 复制 一 一 越 小 越 浪 费 

GraphX 使 用 了 点 切割 的 方式 , 这 是 一 种 用 空间 换 时 间 的 方法 , 通过 浪费 一 定 的 内 存 , 将 
点 和 它 的 邻居 放 到 一 起 , 减少 Executor 之 间 的 通信 。 如 果 用 小 内 存 的 Executor 来 运行 图 算法 ， 
假设 一 个 节点 ， 需 要 10 个 Executor 才能 放下 它 的 邻居 ， 那 么 它 就 需要 被 复制 10 份 ， 才 能 进 
行 计 算 。 如 果 用 大 内 存 的 Executor， 一 个 Executor 就 能 放下 它 的 所 有 和 邻居， 理论 上 它 就 只 需 
要 被 复制 一 次 ， 大 大 减少 了 空间 占用 。 

2) 节点 膨胀 一 一 越 小 越 慢 

图 计算 中 ， 常 常会 进行 消息 的 扩散 和 收集 ， 并 把 最 终 的 结果 汇总 到 单个 节点 上 。 以 共同 
好 友 数 模型 为 例 , 第 一 步 需 要 将 节点 的 好 友 都 收集 到 该 节点 上 。 即便 根据 邓 巴 的 “150 定律 ”， 
将 好 友 的 个 数 限制 在 150 之 内 。 那 么 ， 图 的 占用 空间 还 是 很 可 能 会 膨胀 150 倍 。 这 个 时 候 ， 
如 果 内 存 空 间 不 够 ，GraphX 为 了 容 下 所 有 的 数据 ， 会 需要 在 节点 之 间 进 行 大 量 的 Shuffle 和 
Spill 操作 ， 使 得 后 续 的 计算 变 得 非常 慢 。 

其 实 ， 这 两 个 问题 在 Spark 的 其 他 机 器 学 习 算 法 中 或 多 或 少 都 会 有 ， 也 是 分 布 式 计算 系 
统 中 经 常 面临 的 问题 。 但 是 ， 在 图 计算 中 ， 它 们 是 无 法 被 忽略 的 问题 ， 而 且 非 常 严重 。 所 以 ， 
这 决定 了 GraphX 需要 大 的 内 存 ， 才 能 有 良好 的 性 能 。 

在 正常 情况 下 , 128GB 内 存 , 减 掉 8GB 的 系统 占用 , 剩 下 120GB。 这 时 配置 给 每 个 Executor 
60GB 内 存 ， 两 个 Core， 每 个 Core 分 到 30GB 的 内 存 。 这 时 不 需要 申请 太 多 的 Executor， 经 
过 合理 的 性 能 优化 ， 全 量 关 系 链 计算 ， 可 以 运行 成 功 。 














27.3.2 Spark GraphX 调 优 参数 及 调 优 最 佳 实践 


Spark GraphX 调 优 方法 : 

1) 图 缓存 

Spark 和 GraphX 原本 设计 的 精妙 之 处 ， 亮 点 之 一 便 在 于 Cache， 也 就 是 Persist 
(MEMORY ONLY), 或 者 PersisttMEMORY _AND_DISK)。 可 以 把 RDD 和 Graph 的 数据 Cache 
到 内 存 中 ， 方 便 多 次 调用 ， 而 无 需 重新 计算 。 那 么 ， 是 否 对 所 有 的 RDD 或 者 图 都 Cache 一 
下 ，Cache 是 最 佳 的 选择 呢 ? 答案 是 未 必 。 

判断 是 否 要 Cache 一 个 Graph 或 RDD, 最 简单 和 重要 的 标准 , 就 是 该 Graph 是 否 会 在 后 
续 的 过 程 中 被 直接 使 用 多 次 ， 包 括 迭 代 。 

如 果 会 ， 那 么 这 个 Graph 就 要 被 Persist， 然 后 通过 action 触发 。 如 果 不 会 ， 那 么 反 过 来 ， 
最 好 把 这 个 Graph 直接 unPersist 掉 。 一 个 Graph 被 Cache, 一 般 最 终 体 现 为 两 个 RDD 的 Cache， 
一 个 是 Edge， 一 个 是 Vertex， 其 占用 量 非常 巨大 。 在 整体 空间 有 限 的 情况 下 ，Cache 会 导致 
内 存 的 使 用 量 大 大 加 剧 ， 引 发 多 次 GC 和 重 算 ， 反 而 会 拖 慢 速度 。 在 QQ 全 量 的 关系 链 计 算 ， 
一 个 全 量 图 是 非常 大 的 ， 因 此 如 果 一 个 图 没 被 多 次 使 用 ， 那 么 先 unPersist， 再 返回 给 下 一 个 
计算 步骤 ， 反 而 成 了 最 佳 实践 。 当 然 ， 既 然 unPersist 了 ， 那 么 它 只 能 被 再 用 一 次 。 

示例 代码 如 下 。 

1. val oneNbrGraph = computeOneNbr (originalGraph) 


2. oneNbrGraph.unPersist() 
3. val resultRDD = oneNbrGraph.triplets.map { 
2 
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2) 分 区 策略 : EdgePartition2D 
GraphX 有 4 种 分 区 的 策略 ， 其 中 性 能 最 好 的 英 过 于 EdgePartition2D 这 种 边 分 区 策略 。 
但 是 , 由 于 QQ 全 量 的 关系 链 非 常 大 , 所 以 , 如 果 先 用 默认 策略 , 构造 了 图 , 再 调用 PartitionBy 
的 方法 来 改变 分 区 策略 ， 那 么 就 会 多 一 步 代 价 非常 高 的 计算 。 
此 ， 为 了 减少 不 必要 的 计算 步骤 ， 建 议 在 构造 图 前 ， 先 对 Edge 使 用 该 策略 进行 划分 ， 
再 用 划分 好 的 Edge RDD 进行 图 构建 。 
示例 代码 如 下 。 
1. val edgesRePartitionRDD = edgeRDD.map { case (src, dst) => val pid = 
PartitionStrategy.EdgePartition2D.getPartition(src, dst, PartitionNum) 
(pid, (src, dst)) }.PartitionBy (new HashPartitioner (PartitionNum)) .map 
{ case (pid, (src, dst)) => Edge(src, dst, 1) } 


val g = Graph.fromEdges( 
edgesRePartitionRDD, 




















MON 


全 注意 ; PartitionNum 分 区 数 必 须 是 平方 数 ， 才 能 达到 最 佳 的 性 能 。 


GraphX 的 代码 ， 从 1.3 版 本 开始 ， 便 已 经 没有 变动 ， 基 本 是 靠 Core 的 优化 来 提高 性 能 ， 
没有 任何 实质 性 的 改进 ， 如 果 要 继续 使 用 ， 在 核心 上 必须 有 所 提升 才 行 。 


27.4 Spark ML 调 优 原理 及 调 优 最 佳 实践 


本 节 讲 解 Spark ML 调 优 原理 ， 以 及 Spark ML 调 优 参数 及 调 优 最 佳 实践 。 
27.4.1 Spark ML 调 优 原理 


模型 选择 (又 名 超 参 数 调 优 ) : 在 ML 中 一 个 重要 的 任务 就 是 模型 选择 ， 或 者 使 用 给 定 
的 数据 为 给 定 的 任务 寻找 最 适合 的 模型 或 参数 。 这 也 叫 作 调 优 。 调 优 可 以 是 对 单个 的 
Estimator， 如 LogisticRegression， 或 者 是 包含 多 个 算法 、 向 量化 和 其 他 步骤 的 整个 Pipline。 
用 户 可 以 一 次 性 对 整个 Pipline 进行 调 优 ， 而 不 必 对 Pipline 中 的 每 个 元 素 进行 单独 调 优 。 

MLlib 支持 使 用 像 CrossValidator 和 TrainValidationSplit 这 样 的 工具 进行 模型 选择 。 这 些 
工具 需要 以 下 组 件 。 

口 Estimator: 用 户 调 优 的 算法 或 Pipline。 

口 ParamMap 集合 : 提供 参数 选择 ， 有 时 也 叫 作 用 户 查找 的 “参数 网 格 ”。 

口 Evaluator: 衡量 模型 在 测试 数据 上 的 拟 合 程度 。 

在 上 层 ， 这 些 模型 选择 工具 的 工作 方式 如 下 。 

口 将 输入 数据 切 分 成 训练 数据 集 和 测试 数据 集 。 

口 对 于 每 个 (训练 数据 ， 测 试 数据 ) 对 ， 通 过 ParamMap 集合 进行 迭代 。 

口 对 于 每 个 ParamMap， 使 用 它 提供 的 参数 对 Estimator 进行 拟 合 ， 给 出 拟 合 模型 ， 然 

后 使 用 Evaluator 评估 模型 的 性 能 。 
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口 选择 表现 最 好 的 参数 集合 生成 的 模型 。 

针对 回归 问题 ，Evaluator 可 以 是 一 个 RegressionEvaluator; 针对 二 进 制 数据 ， 可 以 是 
BinaryClassificationEvaluator， 或 者 是 对 于 分 类 问题 的 MulticlassClassificationEvaluator。 用 于 
选择 最 佳 ParamMap 的 默认 度量 方式 可 以 通过 评估 器 的 setMetricName 方法 进行 覆盖 。 为 了 
方便 构造 参数 网 格 ， 用 户 可 以 使 用 通用 的 ParamGridBuilder。 





27.4.2 ”Spark ML 调 优 参数 及 调 优 最 佳 实践 


1. 交叉 验证 


交叉 验证 (CrossValidator) 将 数据 集 切 分 成 玉 折 数据 集合 ， 并 被 分 别 用 于 训练 和 测试 。 
例如 ，K=3 折 时 ，CrossValidator 会 生成 3 个 〈 训 练 数 据 ， 测 试 数据 ) 对 ， 每 个 数据 对 的 训练 
数据 占 203， 测 试 数据 占 113。 为 了 评估 一 个 ParamMap，CrossValidator 会 计算 这 3 个 不 同 的 
(训练 ， 测 试 ) 数据 集 对 在 Estimator 拟 合 出 的 模型 上 的 平均 评估 指标 。 

找 出 最 好 的 ParamMap 后 , CrossValidator 会 使 用 这 个 ParamMap 和 整个 的 数据 集 重 新 拟 
合 Estimator。 

使 用 交叉 验证 进行 模型 选择 。 下 面 示 例 示 范 了 使 用 CrossValidator 从 整个 网 格 的 参数 中 
选择 合适 的 参数 。 注 意 ， 在 整个 参数 网 格 中 进行 交叉 验证 比较 耗 时 。 例 如 ,在 下 面 的 例子 中 ， 
参数 网 格 有 3 个 HashingTF.numFeatures 值 和 两 个 Ir.regParam 值 ，CrossValidator 使 用 2 折 切 
分 数据 。 最 终 将 有 (3X2)X2 = 12 个 不 同 的 模型 被 训练 。 在 真实 场景 中 ,很 可 能 使 用 更 多 的 参 
数 和 进行 更 多 折 切 分 〈 有 3 和 大 10 都 很 常见 ) 。 换 名 话说， 使 用 CrossValidator 的 代价 可 能 
会 非常 大 。 然 而 ， 对 比 启发 式 的 手动 调 优 ， 这 是 选择 参数 的 行 之 有 效 的 方法 。 


1 
2 import org.apache.Spark.ml.Pipeline 

3. import org.apache.Spark.ml.classification.LogisticRegression 

4. import org.apache.Spark.ml.evaluation.BinaryClassificationEvaluator 
5. import org.apache.Spark.ml.feature.{HashingTF, Tokenizer} 

6. import org.apache.Spark.ml.linalg.Vector 

7. import org.apache.Spark.ml.tuning.{CrossValidator, ParamGridBuilder} 
8 import org.apache.Spark.sql.Row 

9 


10. // 从 (ID、 文 本 、 标 签 ) 的 元 组 列表 数据 中 准备 训练 数据 
11. val training = Spark.createDataFrame (Seq( 
i (0L "a bc de Spark 120)7 

:二 江 (ln on la) 

14. (2 “Spark Eg he ON 

5 (3L, "hadoop mapreduce", 0.0), 

16. (tap, “hb Spark Who TL.0 

Ey 所 (DD ng an ys 

18> (SB. "Spark FEy", La 0), 

a (7L, "was mapreduce", 0.0), 

20 . (8L, "e Spark program", 1.0), 

2 1 et ep 

22. (10L, "Spark compile", 1.0), 

2 人 语 (11L, "hadoop software", 0.0) 

Za tonE lt id "Eoxtn “abel") 


26。// 配 置 一 个 机 器 学 习 ML 的 工作 流 ， 包 括 三 个 阶段 : 标记 、HashingTF 和 IR 


27. val tokenizer = new Tokenizer() 
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05 .setInputCol ("text") 

2 -SetOutputCol ("words") 

30. val HashingTF = new HashingTF () 

3 -SetInputCol (tokenizer.getOutputCol) 

EE -SetOutputCol ("features") 

33. val lr = new LogisticRegression() 

34. .setMaxIter(10) 

35. val pipeline = new Pipeline() 

Ee .SetStages (Array (tokenizer, HashingTF, 1r)) 
37s 


38. // 用 一 个 ParamGridBuilder 构建 网 格 参数 进行 搜索 
39. // 使 用 HashingTF.numFeatures 的 3 个 值 ， 以 及 1r.regParam 的 两 个 值 
40. // 该 网 格 将 有 3X2 = 6 参数 设置 为 CrossValidator 


41. val paramGrid = new ParamGridBuilder () 


42. .addGrid (HashingTF .numFeatures, Array(10, 100, 1000)) 
3 .addGrid(lr.regParam, Array(0.1, 0.01)) 

44. .build() 

Se 


* 现在 把 工作 流 作 为 一 种 估计 ， 它 包 庄 在 一 个 CrossValidator 实例 里 


* 这 将 使 用 户 能 够 共同 选择 所 有 的 工作 流 阶段 的 参数 。CrossValidator 需要 进行 估计 
*Estimator ParamMaps、Evaluator。 注 意 , 这 里 的 评估 是 一 个 inaryClassification 


*Evaluator, 其 默认 度量 是 areaUnderROC 


46 . 黑 尖 

47. val cv = new CrossValidator () 

48 . .SetEstimator (pipeline) 

49. -SetEvaluator (new BinaryClassificationEvaluator) 
SOs .SetEstimatorParamMaps (paramGrid) 

SE .setNumFolds(2) //Use 3+ in practice 

S52 


53. // 运 行 交叉 验证 ， 并 选择 最 佳 的 参数 集 


54. val cvModel = cv.fit (training) 


56. // 准 备 测试 文件 ， 这 是 未 标记 的 〈ID、 文 本 ) 的 元 组 
57. val test = Spark.createDataFrame (Seq( 
1; 尖 (A Spark i 

59. (SE "Lm nm) 

60 . (6L, "mapreduce Spark") ， 

61: (7L, "apache hadoop") 

2 EoDE Lid “boxth 


64 . // 对 测试 文档 进行 预测 。cvModel 模型 采用 最 好 的 模式 (lrmode1) 
65. cvModel .transform(test) 


66. .select ("id", "text", "probability", "prediction") 

6T: .collect () 

68 . -foreach { case Row(id: Long, text: String, prob: Vector, prediction: 
Double) => 

69. println(s"($id, $text) --> prob=$prob, prediction=$prediction") 

To0. 中 


2. 训练 -验证 切 分 


作为 CrossValidator 的 附加 ，Spark 同样 为 超 参 数 调 优 提 供 了 TrainValidationSplit。 相 对 
于 CrossValidator 的 天 次 评估 ，TrainValidationSplit 只 对 每 个 参数 组 合 评估 一 次 。 因 此 ， 它 的 














评估 代价 没有 这 么 高 ， 但 是 ， 当 训练 数据 集 不 够 大 的 时 候 ， 其 结果 相对 不 够 可 信 。 


不 同 于 CrossValidator，TrainValidationSplit 创建 单一 的 (训练 ， 测 试 ) 数据 集 对 。 它 使 





= 
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用 trainRatio 参数 将 数据 集 切 分 成 两 部 分 。 例 如, 当 设 置 trainRatio=0.75 时 , TrainValidationSplit 
会 将 数据 切 分 75% 作 为 数据 集 ，25% 作 为 验证 集 ， 来 生成 训练 、 测 试 集 对 。 
与 CrossValidator 相似 ，TrainValidationSplit 最 终 使 用 最 好 的 ParamMap 和 完整 的 数据 集 
来 拟 合 Estimator。 
示例 : 通过 训练 /验证 切 分 选择 模型 。 
import org.apache.Spark.ml .evaluation.RegressionEvaluator 


i 
2. import org.apache.Spark.ml.regression.LinearRegression 

3. import org.apache.Spark.ml.tuning.{ParamGridBuilder, TrainValidationSplit} 
4 

加 

6 


// 准 备 训练 和 测试 数据 
val data = Spark.read.format ("libsvm").load("data/mllib/sample linear 
regression data.txt") 


7. val Array(training, test) = data.randomSplit (Array(0.9, 0.1), seed = 
12345) 

Be 

9. val lr = new LinearRegression() 

Ei .setMaxIter (10) 

11. 


12. // 我 们 用 一 个 ParamGridBuilder 构建 网 格 参数 进行 搜索 ，TrainValidationSplit 将 尝 
// 试 所 有 的 组 合 和 最 佳 值 确定 计算 模型 


13. val paramGrid = new ParamGridBuilder () 


14. .addGrid(lr.regParam, Array(0.1, 0.01)) 

ER -addGrid(lr.fitIntercept) 

s 7 -addGrid(lr.elasticNetParam, Array(0.0, 0.5, 1.0)) 

17. .build() 

18 . 

19. // 在 这 种 情况 下 ， 评 估 是 简单 线性 回归 ，TrainValidationSplit 需要 评估 ParamMaps、 
//Evaluator 

20. val trainValidationSplit = new TrainValidationSplit() 

ZE .setEstimator (1r) 

必 22 .setEvaluator (new RegressionEvaluator) 

迷 35 .SetEstimatorParamMaps (paramGrid) 

24. ”//80% 的 数据 将 用 于 训练 ， 剩 下 的 20% 用 于 验证 

2 .SetTrainRatio (0.8) 

265 


27. // 运 行 训练 验证 分 离 ， 并 选择 最 佳 的 参数 集 


28. val model = trainValidationSplit.fit(training) 
30. // 对 试验 数据 进行 预测 ， 模 型 与 参数 的 组 合 的 模型 是 表现 最 好 的 
31. model.transform (test) 


32 .Select ("features", "label", "prediction") 
3 -Show() 


27.5 SparkR 调 优 原理 及 调 优 最 佳 实践 


27.5.1 SparkR 调 优 原 理 


R 是 数据 科学 家 中 最 流行 的 编程 语言 和 环境 之 一 ， 在 Spark 中 加 入 对 R 的 支持 是 社区 中 
较 受 关注 的 话题 。 作 为 增强 Spark 对 数据 科学 家 群体 吸引 力 的 最 新 举措 ，SparkR 使 得 熟悉 R 
的 用 户 可 以 在 Spark 的 分 布 式 计算 平台 基础 上 结合 R 本 身 强大 的 统计 分 析 功 能 和 丰富 的 第 三 


Fs 
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方 扩展 包 ， 对 大 规模 数据 集 进行 分 析 和 处 理 。 
SparkR 架构 主要 由 两 部 分 组 成 : SparkR 包 和 JVM 后 端 。 SparkR 包 是 一 个 及 扩展 包 ， 安 
装 到 及 中 之 后 ， 在 及 的 运行 时 环境 里 提供 了 RDD 和 DataFrame API， 如 图 27-17 所 示 。 





RDD/DataFrme AP 


R 解 释 器 


Mesos/YARN/Standalone 


HDFS/HBase/Cassandra 





图 27-17 SparkR 部 署 图 
SparkR 的 整体 架构 如 图 27-18 所 示 。 
本 地 主机 
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图 27-18 ”SparkR 的 整体 架构 
R JVM 后 端 SparkR API 运行 在 R 解释 器 中 ， 而 Spark Core 运行 在 JVM 中 ， 因 此 必须 有 
一 种 机 制 能 让 SparkR API 调用 Spark Core 的 服务 。R JVM 后 端 是 Spark Core 中 的 一 个 组 件 ， 
提供 了 R 解释 器 和 JVM 虚拟 机 之 间 的 桥接 功能 ,能 够 让 R 代码 创建 Java 类 的 实例 ,调用 Java 
对 象 的 实例 方法 或 者 Java 类 的 静态 方法 。 JVM 后 端 基于 Netty 实现 , 和 及 解释 器 之 问 用 TCP 
socket 连接 ， 用 自 定 义 的 简单 高 效 的 二 进 制 协议 通信 。 
SparkR RDD API 和 Scala RDD API 相 比 :SparkR RDD 是 及 对 象 的 分 布 式 数据 集 , SparkR. 
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RDD transformation 操作 应 用 的 是 R 函数 。SparkR RDD API 的 执行 依赖 于 Spark Core， 但 运 
行 在 JVM 上 的 Spark Core 既 无 法 识别 R 对 象 的 类 型 和 格式 ， 又 不 能 执行 R 的 函数 ， 因 此 ， 
如 何在 Spark 的 分 布 式 计算 核心 的 基础 上 实现 SparkR RDD API 是 SparkR 架构 设计 的 关键 。 

SparkR 设计 了 Scala RRDD 类 , 除了 从 数据 源 创建 的 SparkR RDD 外 , 每 个 SparkR RDD 
对 象 概念 上 在 JVM 端 有 一 个 对 应 的 RRDD 对 象 。 RRDD 派生 自 RDD 类 ， 改 写 了 RDD 的 
compute 方法 ， 在 执行 时 会 启动 一 个 R worker 进程 ， 通 过 socket 连接 将 父 RDD 的 分 区 数据 、 
序列 化 后 的 RR 函数 以 及 其 他 信息 传 给 Rworker 进程 .-R worker 进程 反 序列 化 接收 到 的 分 区 数 
据 和 R 函数 ， 将 R 函数 应 到 用 分 区 数据 上 ， 再 把 结果 数据 序列 化 成 字 节 数组 传 回 JVM 端 。 

从 这 里 可 以 看 出 , 与 Scala RDD API 相 比 ，SparkR RDD API 的 实现 多 了 几 项 开销 : 启动 
R worker 进程 , 将 分 区 数据 传 给 Rworker 和 R worker 将 结果 返回 , 分 区 数据 的 序列 化 和 反 序 
列 化 。 这 也 是 SparkR RDD API 相 比 Scala RDD API 有 较 大 性 能 差距 的 原因 。 























27.5.2 SparkR 调 优 参数 及 调 优 最 佳 实践 


SparkR 是 一 个 及 包 , 提供 了 一 个 轻 量 级 的 前 端 , 使 用 R 中 的 Apache Spark。 在 Spark 2.1.1 
中 ，SparkR 提供 了 支持 选择 、 过 滤 、 聚 合 等 操作 的 分 布 式 数据 data frame 的 实现 (类 似 于 RR 
数据 data frame,dplyr) 。 在 大 数据 集 上 ，SparkR 还 支持 使 用 MLlib 进行 分 布 式 机 器 学 习 。 

SparkR 目前 支持 以 下 机 器 学 习 算 法 。 

1. 分 类 


口 spark.logit: Logistic Regression (逻辑 回归 ) 。 

口 sparkmlp: Multilayer Perceptron (MLP) (多 层 感知 器 )。 
口 spark.naiveBayes: Naive Bayes (朴素 贝 叶 斯 ) 。 
口 

2 

口 





spark.svmLinear: Linear Support Vector Machine (线性 支持 向 量 机 ) 。 
. 回归 
spark.survreg: Accelerated Failure Time (AFT) Survival Model (加 速 失效 时 间 (AFT) 
生存 模型 ) 。 
spark.glm or glm: Generalized Linear Model (GLM)〈 广 义 线性 模型 ) 。 
spark.isoreg: Isotonic Regression〔 保 序 回 归 ) 。 
3. 树 


口 spark.gbt: Gradient Boosted Trees for Regression and Classification (回归 和 分 类 的 梯度 
增强 树 ) 。 

口 spark.randomForest: Random Forest for Regression and Classification (回归 和 分 类 的 随 
机 森林 ) 。 


4. 聚 类 


口 spark.bisectingKmeans: ”Bisecting k-means (二 分 天 均值 ) 。 
口 spark.gaussianMixture: Gaussian Mixture Model (GMM) 〈 高 斯 混合 模型 ) 。 
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口 
口 


spark.kmeans: K-Means ( 聚 类 算法 ) 。 
spark.lda: Latent Dirichlet Allocation (LDA) (潜在 狄 利克 雷 分 布 ) 。 


5. 协同 过 滤 


spark.als: Alternating Least Squares (ALS) (交替 最 小 二 乘法 ) 。 
6. 频繁 模式 挖掘 

spark. 印 Growth : FP-growth (关联 分 析 算 法 ) 。 

7. 统计 


spark.kstest: Kolmogorov-Smirnov Test〈 柯 尔 莫 诺 夫 -斯 米尔 诺 夫 检验 ) 。 

SparkR 的 性 能 调 优 可 借助 于 Spark 核心 框架 引擎 的 升级 ，Spark 旧版 本 升级 到 Spark 2.X 
新 版 本 提升 SparkR 的 运行 性 能 。 

(1) 从 SparkR 1.5.X 升级 到 1.6.X。 在 Spark 1.6.0 之 前 写 入 的 默认 模式 是 append。 在 Spark 
1.6.0 中 更 改 error 为 与 Scala API 相 匹配 ;， SparkSQL 将 R 中 的 类 型 NA 转换 为 null， 反 之 


亦 然 。 


(2) 从 SparkR 1.6.X 升级 到 2.0。 


口 
口 
口 


口 
口 
口 


table 方法 已 被 删除 ， 并 替换 为 tableToDF 。 

为 避免 名 称 冲突 ， 类 DataFrame 已 重 命名 SparkDataFrame。 

Spark SQLContext 和 HiveContext 已 过 时 ， 将 被 代 蔡 为 SparkSession 。 而 不 是 

sparkR.init(0) 调 用 sparkR.session() 来 实例 化 SparkSession 的 位 置 。 一 旦 完成 ， 当 前 活 

动 的 SparkSession 将 用 于 SparkDataFrame 操作 。 

sparkExecutorEnv 参数 不 支持 sparkR.session。 要 为 执行 程序 设置 环境 ， 使 用 前 级 
“spark.executorEnv.VAR NAME ”设置 Spark 配置 属性 ， 如 “spark.executorEnv. 

PATH”。 

sqlContext 参数 不 再 需要 这 些 功 能 : createDataFrame, as.DataFrame, read.json, jsonFile， 

read.parquet, parquetFile, read.text, sql, tables, tableNames, cacheTable, uncacheTable, 

clearCache, dropTempTable, read.df, loadDF, createExternalTable。 

方法 registerTempTable 已 被 弃 用 ， 蔡 代为 createOrReplaceTempView。 

方法 dropTempTable 已 被 弃 用 ， 替 代为 dropTempView。 

sc 的 SparkContext 参数 不 再 需要 这 些 功 能 : setUobGroup，clearJobGroup，cancelJobGroup 


(3) 升级 到 SparkR 2.1.0。Join 默认 情况 下 不 再 执行 笛 卡 尔 乘积 ， 改 用 crossJoin。 


“he 
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本 章 讲解 Spark 2.2.0 新 一 代 钨 丝 计 划 (Tungsten) 优化 引擎 。28.1 节 讲 解 钨 丝 计 划 概 述 ; 
28.2 节 讲 解 内 存 管 理 与 二 进 制 处 理 ，28.3 节 讲 解 缓存 感知 计算 ; 28.4 节 讲 解 代码 生成 。 


28.1 概 述 


Spark 作为 一 个 一 体 化 、 多 元 化 的 大 数据 处 理 通用 平台 ， 性 能 一 直 是 其 根本 性 的 追求 之 
一 。Spark 基于 内 存 迭 代 【〔 部 分 基于 磁盘 迭代 的 模型 极 大 地 满足 了 人 们 对 分 布 式 系统 处 理 
性 能 的 渴望 。Spark 是 采用 Scalat Java 语言 编写 的 ， 所 以 运行 在 JVM 平台 。 当 然 ，JVM 是 

-个 绝对 伟大 的 平台 ， 因 为 JVM 让 整个 离散 的 主机 融 为 一 体 〈 网 络 即 OS) ， 但 是 JVM 的 
死 穴 GC 反 过 来 限制 了 Spark 也 就 是 说 ,平台 限制 了 Spark) ， 所 以 Tungsten 聚焦 于 CPU 
和 Memory 使 用 ， 以 达到 对 分 布 式 硬件 潜能 的 终极 压榨 ! 

对 Memory 的 使 用 ，Tungsten 使 用 了 Off-Heap， 也 就 是 在 JVM 之 外 的 内 存 空间 (这 就 
好 像 C 语言 对 内 存 的 分 配 、 使 用 和 销毁 ) ， 此 时 Spark 实现 了 自己 的 独立 的 内 存 管理 ， 就 避 
免 了 JVM 的 GC 引发 的 性 能 问题 ， 其 实 也 避免 了 序列 化 和 反 序 列 化 。 

对 Memory 的 管理 ，Tungsten 提出 了 Cache-aware computation。 也 就 是 说 ， 使 用 对 缓存 
友好 的 算法 和 数据 结构 来 完成 数据 的 存储 和 复 用 。 

对 CPU 的 使 用 ，Tungsten 提出 了 Code Generation， 其 首先 在 Spark SQL 使 用 ， 通 过 
Tungsten 把 该 功能 普及 到 Spark 的 所 有 功能 中 (这 里 的 CG 类 似 于 Android 的 art 模式 ) 。 

Java 操作 的 数据 一 般 是 自己 的 对 象 ， 但 像 C、C++ 语 言 可 以 操作 内 存 中 的 二 进 制 数 据 一 
样 ，Java 同样 也 可 以 。Tungsten 的 内 存 管理 机 制 独立 于 JVM， 所 以 Spark 操作 数据 时 具体 操 
作 的 是 Binary Data， 而 不 是 JVM Object， 而 且 还 免 去 了 序列 化 和 反 序 列 化 的 过 程 ! 


1. 内 存 管理 和 二 进 制 处 理 


(1) 避免 使 用 非 transient 的 Java 对 象 〈 它 们 以 二 进 制 格式 存储 ) ， 这 样 可 以 减少 GC 的 
开销 。 

(2) 通过 使 用 基于 内 存 的 密集 数据 格式 ， 可 以 减少 内 存 的 使 用 。 

(3) 更 好 的 内 存 计算 〈 字 节 的 大 小 ) ， 而 不 是 依赖 启发 式 。 

(4) 对 于 知道 数据 类 型 的 操作 (如 DataFrame 和 SQL) ， 可 以 直接 对 二 进 制 格式 进行 操 
作 ， 这 样 我 们 就 不 需要 进行 系列 化 和 反 系 列 化 的 操作 。 











下 篇 ”性 能 调 优 








2. 缓存 感知 计算 
对 aggregations、Joins 和 Shuffle 操作 进行 快速 排序 和 哈 希 操 作 。 
3. 代码 生成 


(1) 更 快 的 表达 式 求 值 和 DataFrame/SQL 操作 。 

(2) 快速 系列 化 。 

Tungsten 的 实施 已 有 两 个 阶段 : 1.6.X 基于 内 存 的 优化 ; 2.X 基于 CPU 的 优化 。 还 优化 
Disk IO、Network IO， 主 要 针对 Shuffle。 

Apache Spark 已 经 非常 快 了 , 但 是 我 们 能 不 能 让 它 再 快 10 倍 ? 这 个 问题 使 我 们 从 根本 上 
重新 思考 Spark 物理 执行 层 的 设计 。 当 调查 一 个 现代 数据 引擎 ,会 发 现 大 部 分 的 CPU 周期 都 
花费 在 无 用 的 工作 上 ， 如 虚 函 数 的 调用 ; 或 者 读 取 / 写 入 中 间 数 据 到 CPU 高 速 缓存 或 内 存 中 。 
通过 减少 花 在 这 些 无 用 功 的 CPU 周期 一 直 是 现代 编译 器 长 期 性 能 优化 的 重点 。 

Apache Spark 2.0 中 附带 了 第 二 代 Tungsten engine。 这 一 代 引 擎 是 建立 在 现代 编译 器 的 想 
法 上 ， 并 且 把 它们 应 用 于 数据 的 处 理 过 程 中 。 主 要 想法 是 ， 通 过 在 运行 期 间 优 化 那些 拖 慢 整 
个 查询 的 代码 到 一 个 单独 的 函数 中 , 消除 虚拟 函数 的 调用 以 及 利用 CPU 寄存 器 来 存放 那些 中 
间 数 据 。 作 为 这 种 流线型 策略 的 结果 , 我们 显著 提高 CPU 效率 并 且 获 得 了 性 能 提升 ， 我 们 把 
这 些 技 术 统 称 为 “ 整 段 代 码 生成 ”。 


28.2 ”内 存 管理 与 二 进 制 处 理 


本 节 讲 解 内 存 管理 与 二 进 制 处 理 ， 主 要 包括 : JVM 对 象 模型 的 内 存 开销 和 GC 的 开销 ; 
内 存 管理 的 模型 及 其 实现 类 的 解析 ; 二 进 制 处 理 及 其 实现 类 的 解析 。 


28.2.1 概述 


Spark 计算 框架 是 基于 Scala 与 Java 语言 开发 的 ， 其 底层 都 使 用 了 Java 虚拟 机 (Java 
Virtual Machine，JVM) 。 而 在 JVM 上 运行 的 应 用 程序 是 依赖 JVM 的 垃圾 回收 机 制 来 管理 
内 存 的 ， 随 着 Spark 应 用 程序 性 能 的 不 断 提升 ，JVM 对 象 和 GC 开销 产生 的 影响 (包括 内 存 
不 足 、 频 繁 GC 或 Full GC 等 ) 将 非常 致命 ， 即 引进 新 的 Tungsten 内 存 管理 机 制 的 主要 原因 
在 于 ，JVM 在 内 存 方面 和 GC 方面 的 开销 。 主 要 包含 不 必要 的 内 存 开销 和 GC 的 开销 。 

1. JVM 对 象 模 型 的 内 存 开销 


可 以 通过 Java Object Layout 工具 来 查看 在 JVM 上 Java 对 象 所 占用 的 内 存 空间 (可 以 参 
考 http://openjdk.java.net/projects/code-tools/jol/) 。 需 要 注意 的 是 ， 在 32bit 与 64bit 的 操作 系 
统 ， 占 用 空间 会 有 所 差异 。 下 面 是 在 64bit 操作 系统 上 对 String 的 分 析 结果 。 


1. java.lang.String object internals: 
2 OFFSET SIZE TYPE DESCRIPTION VALUE 
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3 0 1 (object header) N/A 

4. 时 4 char[] String.value N/A 

5 16 4 int String.hash N/A 

= 20 4 int String.hash32 N/A 

7. Instance size: 24 bytes (estimated, the sample instance is not available) 
8. Space losses: 0 bytes internal + 0 bytes external = 0 bytes total 


一 个 简单 的 String 对 象 会 额外 占用 一 个 12B 的 Header 和 8B 的 哈 希 信 息 。 这 是 开启 
(-XX:+UseCompressedOops， 默 认 ) 指针 压缩 方式 〈-XX:+UseCompressedOops) 的 结果 ， 如 
果 不 开 局 (-XX:+UseCompressedOops ) 指针 压缩 (-XX:+UseCompressedOops) ， 则 内 存 更 大 ， 
如 下 所 示 。 





1. java.lang.String object internals: 

二 OFFSET SIZE TYPE DESCRIPTION VALUE 

汉 0 16 (object header) N/A 

4. 16 8 char[] String.value N/A 

5 24 4 int String.hash N/A 

6: 28 4 int String.hash32 N/A 

7. Instance size: 32 bytes (estimated, the sample instance is not available) 
8. Space losses: 0 bytes internal + 0 bytes external = 0 bytes total 


其 中 ，Header 会 占用 16B 的 内 存 。 另 外 ，JVM 内 存 模型 会 采用 8B 对 齐 ， 因 此 也 可 能 会 
增加 一 部 分 的 内 存 开销 。 

以 上 仅仅 是 String 对 象 在 JVM 内 存 模 型 中 占用 的 内 存 大 小 ,实际 计算 时 需要 考虑 其 内 音 
的 引用 对 象 所 占 的 内 存 。 通 过 分 析 ，char[] 中 默认 的 指针 压缩 情况 下 会 占用 16B 内 存 ， 因 此 
仅仅 是 一 个 空 字符 串 ， 也 会 占用 24B + 16B =40 B 的 内 存 。 

另外 , 在 JVM 内 存 模型 中 , 为 了 更 加 通用 , 它 重新 定制 了 自己 的 储存 机 制 , 使 用 UTF-16 
方式 编码 每 个 字符 (2B) 。 参 考 http://www.javaworld.com/article/2077408/core-java/sizeof-for- 
java.html，java 对 象 的 内 存 占用 大 小 如 下 所 示 : 

1. //java.lang.Object shell size in bytes: 


2 public static final int OBJECT _ SHELL SIZE= 8; 
3 public static final int OBJREF SIZE = 4; 

4. public static final int LONG FIELD SIZE = 8; 

Se public static final int INT FIELD SIZE = 4; 

6 public static final int SHORT FIELD SIZE = 2; 

外 public static final int CHAR FIELD SIZE = 2; 

BE public static final int BYTE FIELD SIZE = 1; 

ge public static final int BOOLEAN FIELD SIZE = 1; 
了 0 public static final int DOUBLE FIELD SIZE = 8; 
让 public static final int FLOAT FIELD SIZE = 4; 


其 中 ，CHAR_FIELD_SIZE 为 2， 即 每 个 字符 串 在 JVM 中 采用 了 UTF-16 编码 ， 一 个 字 
符 会 占用 2B。 

2.GC (垃圾 回收 机 制 ) 的 开销 

JVM 对 象 带 来 的 另 一 个 问题 是 GC。 通 常情 况 下 ，JVM 内 存 模型 中 堆 会 分 成 两 大 块 : 
Young Generation (年 轻 代 ) 和 Old Generation (老年 代 ) ， 其 中 年 轻 代 会 有 很 高 的 分 配 /释放 ， 
通过 利用 年 轻 代 对 象 的 瞬时 特性 ， 垃 圾 收集 器 可 以 更 有 效率 地 对 其 进行 管理 。 老 年 代 的 状态 
则 非常 稳定 。GC 的 开销 在 所 有 基于 JVM 的 应 用 程序 中 都 是 不 可 忽视 的 ， 而 且 对 应 的 调 优 也 
非常 烦琐 ,在 类 似 Spark 这 样 的 基于 内 存 迭 代 处 理 的 框架 中 ， 直 接 在 底层 对 内 存 进 行 管理 可 


ye 
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以 极 大 地 提高 效率 。 因 此 ， 对 应 引入 Project Tungsten 也 就 很 合情合理 了 。 
下 面 会 详细 解析 Project Tungsten 的 内 存 模型 及 其 源码 实现 ,并且 对 基于 该 模型 的 Shuffle 
写 数 据 过 程 中 的 二 进 制 数据 处 理 也 给 出 了 详细 解析 。 





28.2.2 内存 管 理 的 模型 及 其 实现 类 的 解析 


Spark 1.6 版 本 中 提出 了 一 个 新 的 内 存 管 理 模型 ， 即 统一 内 存 管理 模型 ， 对 应 在 Spark 1.5 
及 之 前 的 版 本 则 使 用 静态 的 内 存 管 理 模型 。 关 于 新 的 统一 内 存 管理 模型 ， 可 以 参考 
https://issues.apache.org/jira/secure/attachment/12765646/unified-memory-management-spark-100 
00.pdf。 该 文档 详细 描述 了 各 种 可 能 的 设计 以 及 各 设计 的 优 缺 点 。 

为 了 解决 现 有 基于 JVM 托管 方式 的 内 存 模型 存在 的 缺陷 , ProjectTungsten 设计 了 一 套 新 
的 内 存 管理 机 制 。 在 新 的 内 存 管 理 机 制 中 ，Spark 的 operation 可 以 直接 使 用 分 配 的 二 进 制 数 
据 ， 而 不 是 JVM objects， 避免 了 数据 处 理 过 程 中 不 必要 的 序列 化 与 反 序列 化 的 开销 ， 同 时 基 
于 Off-Heap 方式 管理 内 存 ， 降 低 了 GC 带 来 的 开销 。 

ProjectTungsten 通过 sun.misc.Unsafe 管理 内 存 ， 关 于 sun.misc.Unsafe( 从 命名 上 可 知 该 
工具 不 能 滥用 ) 及 其 使 用 等 内 容 , 可 以 参考 官网 文档 (http://www.docjar.com/docs/api/sun/misc/ 
Unsafe.html) 。 这 里 主要 分 析 ProjectTungsten 中 的 内 存 管 理 模型 的 具体 实现 。 


1. ProjectTungsten 的 内 存 模型 整体 描述 
ProjectTungsten 内 存 管 理 模型 主要 的 类 图 结构 如 图 28-1 所 示 。 


钨 丝 计 划 内 存 分 配 


| 静态 内 存 管理 [ 统一 内 存 管 理 | 不 安全 内 存 分 配 | 堆 内 存 分 配 












































一 一 一 一 分 配 / 释 放 内 存 
内 在 池 内 企 位 置 


存储 内 存 池 执行 内 存 池 内 存 块 | 


1:1 
内 存 存 入 


在 图 28-1 中 ， 基 类 MemoryManager 封装 了 静态 内 存 管理 模型 与 统一 内 存 管 理 模型 ， 即 
分 别 对 应 两 个 具体 实现 子 类 StaticMemoryManger 与 UnitedMemoryManager。 对 应 的 内 存 分 配 
由 MemoryManager 的 成 员 tungstenMemoryMode 决定 ， 即 由 基 类 MemoryAllocator 负责 具体 
内 存 分 配 ， 对 应 OffHeap 与 On-Heap 两 种 内 存 模式 ， 分 别 实 现 了 两 个 具体 子 类 









































图 28-1 ProjectTungsten 内 存 管理 模型 主要 的 类 图 结构 


。960 。 
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UnsafeMemoryAllocator 与 HeapMemoryAllocator。MemoryAllocator 进行 了 allocate 与 free 两 
个 成 员 函 数 来 提供 内 存 的 分 配 与 释放 ， 分 配 的 内 存 以 MemoryBlock 表示 。 

另外 ， 根 据 内 存 使 用 目的 的 不 同 ， 将 内 存 分 为 Storage 和 Execution 两 大 部 分 ， 对 应 的 
MemoryPool 的 两 个 具体 实现 子 类 StorageMemoryPool 与 ExecutionMemoryPool 对 其 进行 管 
理 。 实 际 上 ， 除 了 这 两 部 分 ， 总 的 内 存 还 包括 为 系统 预 留 的 OtherMemory。 

内 存 分 类 及 其 对 应 管理 的 主要 类 之 间 的 关系 可 以 通过 图 28-2 来 描述 。 


























内 存 组 成 内 存 管理 
内 存 池 
存储 内 存 1:1 
存储 内 存 池 
执行 内 存 内 存 模式 














3 後 执行 内 存 涝 -| 
琴 外 损人 内 在- | 村 维 外 执行 内 存 池 HH 一 
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堆 外 内 存 模式 
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不 安全 内 存 分 配 | 站 一 : 


堆 内 存 分 配 二 |- 一 一 : 


kl 
Java 虚 拟 机 


图 28-2 ”内 存 分 类 及 其 对 应 管理 的 主要 类 之 间 的 关系 


在 Worker 上 运行 的 每 个 Execution 进程 (抽象 描述 ， 实 际 对 应 各 部 署 场景 下 的 具体 
ExecutorBackend 实现 子 类 ) ， 人 计 理 负责 管理 其 内 存 ， 即 图 28-2 中 内 存 管 理 
与 Java 虚拟 机 的 对 应 关系 为 1 : 

Storage 部 分 的 内 存 由 we 负责 管理 , Execution 部 分 的 内 存根 据 不 同 的 内 
存 模 式 分 为 On-Heap 与 OffHeap 两 种 ， 分 别 由 onHeapExecutionMemoryPool 与 
offHeapExecutionMemoryPool 进行 管理 。 管 理 内 存 主 要 是 通过 内 存 使 用 量 进行 控制 的 ， 不 涉 
及 内 存 的 分 配 与 释放 。 


2. MemoryManager 的 实现 及 其 源码 解析 
MemoryManager 目前 实现 了 两 种 具体 的 内 存 管 理 模型 ， 从 Spark 1.6 版 本 开始 ， 默 认 使 


用 统一 内 存 管 理 模型 ， 对 应 的 配置 属性 为 sparkmemory-useLegacyMode， 控 制 代码 位 于 
SparkEnv 类 中 ， 代 码 如 下 所 示 。 


1. //spark 1.5 及 之 前 的 版 本 使 用 的 内 存 管 理 模型 对 应 配置 属性 spark.memory.useLegacy 
//Mode 为 true。Spark 1.6 及 之 后 的 版 本 默认 设置 为 false 
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DL 


val useLegacyMemoryManager = conf .getBoolean ("spark.memory.useLegacyMode", 
false) 
val memoryManager: MemoryManager = 
if (useLegacyMemoryManager) { 
// 使 用 静态 内 存 管理 模型 
new StaticMemoryManager (conf, numUsableCores) 
} else { 
//Spark 1.6 及 之 后 的 版 本 默认 使 用 统一 内 存 管理 模型 


UnifiedMemoryManager (conf, numUsableCores) 


Fo waw 必 ww 


0. 


以 上 是 选择 具体 采用 哪 种 内 存 管理 模型 的 代码 ， 下 面 开 始 分 析 内 存 管理 相关 的 源码 ， 首 
先 查 看 MemoryManager 的 注释 ， 如 下 所 示 。 


1. /** 

* 内 存 管 理 的 抽象 接口 ， 用 于 指定 如 何在 Execution 与 Storage 间 共 享 内 存 

* Execution Memory 是 指 用 于 计算 的 内 容 , 包括 Shuffles、Joins、sorts 以 及 aggregations 
* Storage Memory 是 指 用 于 缓存 或 内 部 数据 传输 过 程 中 使 用 的 内 存 

*MemoryManager 与 JVM 进程 的 对 应 关系 为 1 : 1， 即 一 个 JVM 进程 中 的 内 存 由 一 个 
*MemoryManager 进行 管理 

*/ 


private[spark] abstract class MemoryManager( 





芝 
区 ] 
4 
oe 
6. 
7 
8 
可 


在 MemoryManager 类 中 提供 的 内 存 分 配 与 释放 的 儿 个 主要 接口 如 下 。 

(1) Storage 部 分 内 存 的 分 配 与 释放 接口 : acquireStorageMemory、acquireUnrolIlMemory、 
releaseStorageMemory 以 及 releaseUnrollMemory。 

(2) Execution 部 分 内 存 的 分 配 与 释放 接口 : acquireExecutionMemory 与 releaseExecution 
Memory。 

具体 分 配 与 释放 的 实现 由 MemoryManager 的 具体 子 类 提供 。 

两 大 实现 子 类 (StaticMemoryManager 和 UnifiedMemoryManager ) 的 主要 差别 在 于 Storage 
与 Execution 内 存 之 间 的 边界 是 静态 的 ， 还 是 动态 可 变 的。 下 面 分 别 简单 描述 了 两 大 子 类 的 
实现 细节 。 

StaticMemoryManager 类 的 注释 如 下 所 示 : 


工 。 /4 

* 静 态 划 分 Storage 与 Execution 内 存 之 间 的 边界 的 一 种 内 存 管 理 实现 

3 * Storage 与 Execution 内 存 大 小 分 别 由 配置 属性 spark. shuffle.memoryFraction 与 

4 *spark.storage.memoryFraction 各 自 指定 ， 由 于 是 静态 划分 边界 ， 因 此 这 两 者 之 间 不 
* 能 互相 借用 多 余 的 内 存 

二 */ 


6. private[spark] class StaticMemoryManager( 


静态 内 存 管 理 模型 中 各 部 分 内 存 的 分 配 可 以 通过 以 下 几 个 接口 或 成 员 变量 查看 : 

(1) maxUnrollMemory: Unroll 过 程 中 可 用 的 内 存 ， 占 最 大 可 用 Storage 内 存 的 0.2( 占 
比 

(2) getMaxStorageMemory: 获取 分 配给 Storage 使 用 的 最 大 内 存 大 小 。 

(3) getMaxExecutionMemory: 获取 分 配给 Execution 使 用 的 最 大 内 存 大 小 。 

其 中 ，getMaxStorageMemory 对 应 用 于 Storage 的 最 大 内 存 ， 具 体 配 置 如 下 所 示 。 
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a private def getMaxStorageMemory (conf: SparkConf): Long = { 
Val systemMaxMemory = conf.getLong("spark.testing.memory", Runtime. 
getRuntime .maxMemory) 


3 val memoryFraction = conf.getDouble ("spark.storage.memoryFraction", 
0.6) 

4. val safetyFraction = conf.getDouble ("spark.storage.safetyFraction", 
0.9) 

可 (systemMaxMemory * memoryFraction * safetyFraction) .toLong 


} 


其 中 , 配置 属性 spark.storage.memoryFraction 表示 Storage 内 存 占用 全 部 内 存 〈 除 预 留 给 
系统 的 内 存 外 ) 的 占 比 ，spark.storage.safetyFraction 对 应 为 Storage 内 存 的 安全 系数 。 
对 应 的 getMaxExecutionMemory 方法 指明 了 用 于 Execution 内 存 的 相关 配置 属性 ， 与 
Storage 内 存 一 样 ， 包 含 占 总 内 存 的 占 比 (0.2〉 及 对 应 的 安全 系数 。 
另外 ， 除 了 Storage 内 存 ( 占 用 60%) 与 Execution 内 存 〈 占 用 20%) 之 外 的 剩余 内 存 ， 
作为 系统 预 留 内 存 。 
通过 StaticMemoryManager 类 简单 分 析 静 态 内 存 管理 模型 后 ， 继 续 查 看 统一 内 存 管 理 模 
:Bd 
2 *[MemoryManager] 管 理 执 行内 存 和 存储 内 存 的 软 边 界 执行 ， 用 于 执行 内 存 和 存储 之 间 互 相 
* 借 用 内 存 。 执 行 和 存储 之 间 的 区 域 是 总 的 堆 空间 减 去 300MB 预 留 内 存 的 一 部 分 内 存 ， 可 以 通 
* 过 配置 spark .memory .fraction 参数 (默认 值 为 0.6) 实现 ， 边 界 位 置 通过 spark .memory. 
*storageFraction 参数 (默认 为 0.5) 进一步 确定 。 这 意味 着 默认 情况 下 存储 内 存 的 大 小 
*# 是 堆 空间 的 0.6X0.5 = 0.3。 
3 *# 存 储 内 存 能 借用 执行 内 存 〈 如 果 执 行内 存 有 空闲 的 内 存 ) ， 直 到 执行 内 存 重 新 占用 它 的 空间 
*# 为 止 。 当 发 生 这 种 情况 时 ， 绥 存 块 将 被 从 内 存 中 清除 ， 直 到 足够 的 借入 内 存 被 释放 ， 满 足 执行 
* 内 存 、 请 求 内 存 的 需要 。 
4. *# 类 似 地 ， 执 行内 存 可 以 借用 尽 可 能 多 空闲 的 存储 内 存 。 然 而 ， 执 行内 存 由 于 执行 此 操作 所 涉及 
*# 的 复杂 性 ， 执 行内 存 永 远 不 会 被 存储 区 逐 出 。 其 含义 是 ,如果 执行 内 存 已 占用 存储 内 存 的 大 部 
*# 分 空间 , 则 缓存 块 的 尝试 可 能 失败 。 在 这 种 情况 下 , 根据 存储 级 别 , 新 的 块 将 立即 被 逐 出 内 存 。 
5 *@paramstorageRegionSize 存储 区 的 大 小 ， 以 字 节 为 单位 。 这 个 区 域 是 不 是 静态 保留 的 ， 
*# 如 果 必 要 ， 执 行内 存 可 以 借用 存储 内 存 的 空间 ;如 果实 际 存储 内 存 使 用 超出 这 个 区 域 ， 缓 存 块 








+ 将 被 驱逐 。 
6 */ 
7. private[spark] class UnifiedMemoryManager private[memory] (8. ...... 


8. 


UnifiedMemoryManager 与 StaticMemoryManager 一 样 实现 了 MemoryManager 的 几 个 内 
存 分 配 、 释 放 的 接口 ， 对 应 分 配 与 释放 接口 的 实现 ， 在 StaticMemoryManager 中 相对 比较 简 
单 ， 而 在 UnifiedMemoryManager 中 ， 由 于 考虑 到 动态 借用 的 情况 ， 实 现 相对 比较 复杂 ， 具 
体 细节 可 以 参考 官方 提供 的 统一 内 存 管理 设计 文档 以 及 相关 源码 。 例如, 针对 各 个 Task 如 何 
保证 其 最 小 分 配 的 内 存 〈 最 少 为 /2N， 其 中 入 表示 当前 活动 状态 的 Task 个 数 ， 最 大 的 Task 
个 数 可 以 从 Executor 分 配 的 内 核 个 数 /每 个 Task 占用 的 内 核 个 数 得 到 ) 等 等 。 

下 面 简 单 分 析 一 下 统一 内 存 管理 模型 中 ，Storage 内 存 与 Execution 内 存 等 相关 的 配置 。 

UnifiedMemoryManager 的 getMaxMemory 方法 ， 在 Spak 1.6 版 本 中 ， 
spark.memory.fraction 的 默认 值 是 0.75; 在 Spark 2.2.0 版 本 中 ，spark.memory.fraction 的 默认 
值 是 0.6。 

UnifiedMemoryManager.scala 的 getMaxMemory 的 源码 如 下 。 
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本 水 

3 * 返 回 Execution 与 Storage 共享 的 最 大 内 存 

3 Sk 

4. private def getMaxMemory(conf: SparkConf): Long = { 

Ss val systemMemory = conf.getLong ("spark.testing.memory", Runtime.get 


Runtime .maxMemory) 


6. ”// 系 统 预 留 的 内 存 大 小 ， 默 认为 300MB 


Ws val reservedMemory = conf.getLong("spark.testing.reservedMemory", 
8. if (conf.contains("spark.testing")) 0 else RESERVED SYSTEM MEMORY 
BYTES) 
9. // 当 前 最 小 的 内 存 需要 300X1.5， 即 450MB， 不 满足 该 条 件 时 会 报错 退出 
305 val minSystemMemory = (reservedMemory * 1.5) .ceil.toLong 
I if (systemMemory < minSystemMemory) { 
2 throw new IllegalArgumentException(s"System memory $systemMemory 
masE 
和 s"be at least $minSystemMemory. Please increase heap size using the 
—-driver-memory " + 
14. s"option or spark.driver.memory in Spark configuration.") 
LS5s } 
Te //SPARK-12759 如 果 内 存 不 足 ， 就 检查 Executor 内 存 是 否 失败 
ss if (conf.contains("spark.executor.memory")) { 
18. val executorMemory = conf.getSizeAsBytes ("spark.executor.memory") 
19. if (executorMemory < minSystemMemory) { 
20°. throw new IllegalArgumentException(s"Executor memory $executor 
Memory must be at least "+ 
Zs s"$minSystemMemory. Please increase executor memory using the "+ 
之 2 5s"--executor-memory option or spark.executor.memory in Spark 
configuration.") 
23= } 
24. } 
也 val usableMemory = systemMemory - reservedMemory 
4 


DE // 当 前 Execution 与 Storage 共享 的 最 大 内 存 占 比 默认 为 0.6， 即 
28. //Execution 与 Storage 内 存 为 可 用 内 存 的 0.6 
29. // 用 户 内 存 为 可 用 内 存 的 (1-0.6) = 0.4 


30. 

3 val memoryFraction = conf.getDouble("spark.memory.fraction", 0.6) 
oe (usableMemory * memoryFraction) .toLong 

33:0°} 

34. } 


另外 ， 虽 然 Execution 与 Storage 之 间 共 享 内 存 ， 但 仍然 存在 一 个 初始 边界 值 ， 可 以 参考 
伴生 对 象 UnifiedMemoryManager 的 apply 工厂 方法 ， 具 体 代码 如 下 所 示 。 
Spark 1.6.0 版 本 的 UnifiedMemoryManager.scala 的 源码 如 下 。 


了 def apply(conf: SparkConf, numCores: Int) : UnifiedMemoryManager = { 
这 val maxMemory = getMaxMemory (conf) 

后 new UnifiedMemoryManager( 

光志 eonf; 


5. maxMemory = maxMemory, 
6. // 通 过 配置 属性 spark.memory.storageFraction， 可 以 设置 Execution 与 Storage 


J // 共 享 内 存 的 初始 边界 值 ， 即 默认 初始 时 ， 各 占 总 内 存 的 一 半 

8. storageRegionSize = 

: 辣 (maxMemory * conf .getDouble ("spark.memory.storageFraction", 0.5)). 
toLong, numCores = numCores) 

0: 

A } 
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Spark 2.2.0 版 本 的 UnifiedMemoryManager.scala 的 源码 与 Spark 1.6.0 版 本 相 比 具有 如 下 
特点 : 将 上 段 代 码 中 第 8 行 代码 storageRegionSize 的 名 称 调整 为 onHeapStorageRegionSize。 


onHeapStorageRegionSize = 
加 (maxMemory * conf.getDouble ("spark.memory.storageFraction"，0.5) ) .toLongv 


另外 ,需要 注意 的 是 ,前 面 Execution 内 存 指 的 是 On-Heap 部 分 的 内 存 , 在 ProjectTungsten 
中 引入 了 Off-Heap〈 堆 外 ) 内 存 ， 这 部 分 内 存 大 小 的 设置 在 基 类 MemoryManager 中 ， 对 应 
代码 如 下 所 示 。 

MemoryManager.scala 的 源码 如 下 。 

:里 //1. Storage 部 分 的 内 存 池 初始 大 小 设置 


2 onHeapStorageMemoryPool .incrementPoolSize (onHeapStorageMemory) 

3 //2. On-Heap 部 分 的 Execution 内 存 池 初 始 大 小 设置 

4. onHeapExecutionMemoryPool .incrementPoolSize (onHeapExecutionMemory) 
5-。 


6-。 protected[this] val maxOffHeapMemory = conf.getSizeRAsBytes ("spark . 
Imemory.-offHeap.size"，0) 

过 经 protected[this] val offHeapStorageMemory = 

8 (maxOffHeapMemory * conf.getDouble("spark.memory.storageFraction", 

0.5)) .toLong 

9 //3. 计算 获取 off-Heap 内 存 池 的 初始 内 存 大 小 

10. offHeapExecutionMemoryPool.incrementPoolSize (maxOffHeapMemory —- offHeap 
StorageMemory) 

11. offHeapStorageMemoryPool.incrementPoolSize (offHeapStorageMemory) 


当 需 要 使 用 Off-Heap 内 存 时 ， 需 要 注意 的 是 ， 除 了 需要 修改 OffHeap 内 存 池 
CoffHeapExecutionMemoryPool) 的 内 存 初 始 值 (默认 为 0) ， 还 需要 打开 对 应 的 控制 开关 ， 
具体 代码 参考 内 存 分 配 MemoryManager 中 内 存 模式 的 设置 (该 内 存 模式 可 以 控制 用 于 内 存 分 
配 MemoryAllocator 的 具体 子 类 ) ， 对 应 代码 如 下 所 示 。 

Spark 1.6.0 版 本 的 MemoryManager.scala 的 源码 如 下 。 


1. final val tungstenMemoryMode: MemoryMode = { 

2. // 当 使 用 Off-Heap 内 存 模式 时 ， 需 要 通过 spark .memory .offHeap.enabled 

3 // 配 置 属性 打开 开关 ， 然 后 通过 spark .memory .offHeap.size 配置 属性 

4 // 指 定 off-Heap 的 内 存 大 小 

Ls if (conf.getBoolean("spark.memory.offHeap.enabled", false)) { 

60> require(conf.getSizeAsBytes ("spark.memory.offHeap.size", 0) > 0, 

7 "spark.memory .offHeap.size must be > 0 when spark.memory.offHeap. 
enabled == true") 

8. MemoryMode.OFF HEAP 

9. } else { 

10. MemoryMode .ON HEAP 

2 } 

:| 


Spark 2.2.0 版 本 的 MemoryManager.scala 的 源码 与 Spark 1.6.0 版 本 相 比 具有 如 下 特点 : 
新 增 了 Platform.unaligned0 的 检查 。 


了 
2 require (Platform.unaligned(), 
3 "No support for unaligned Unsafe. Set spark.memory.offHeap.enabled 


to false、 jj 
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从 图 28-2 可 以 看 出 ，Execution 内 存根 据 不 同 的 内 存 模式 (On-Heap 或 Off-Heap) 可 以 
有 两 种 内 存 池 管理 方式 ， 对 应 可 以 查看 一 下 Execution 内 存 分 配 的 方法 (方法 注释 中 给 出 了 
为 Task 分 配 内 存 的 实现 细节 ， 有 兴趣 的 读者 可 以 查看 源码 注释 ) ， 关 键 的 代码 如 下 所 示 。 
UnifiedMemoryManager.scala 的 源码 如 下 。 


I override private[memory] def acquireExecutionMemory( 

区 numBytes: Long, 

= taskAttemptId: Long, 

4. memoryMode: MemoryMode): Long = synchronized { 

三 assertInvariants () 

6 assert (numBytes >= 0) 

val (executionPool, storagePool, storageRegionSize, maxMemory) = 
memoryMode match { 


8 case MemoryMode.ON HEAP => ( 

9. // 当 内 存 模式 为 on-Heap 时 ， 使 用 onHeapExecutionMemoryPool 内 存 池 管 理 
10. onHeapExecutionMemoryPool, 

bs onHeapStorageMemoryPool, 

2 onHeapStorageRegionSize， 

5 maxHeapMemory) 

14. case MemoryMode.OFF HEAP => ( 

15. // 当 内 存 模式 为 off-Heap 时 ， 使 用 offHeapExecutionMemoryPool 内 存 池 管 理 
16. offHeapExecutionMemoryPool, 

LT offHeapStorageMemoryPool, 

185 offHeapStorageMemory, 

Ls maxOffHeapMemory) 

20. } 

MemoryMode 是 二 选 一 ， 因 此 在 启动 Off-Heap 内 存 模式 时 ， 可 以 将 Storage 的 内 存 占 比 


(对 应 配置 属性 spark.memory.storageFraction) 设置 高 一 点 ， 虽 然 在 具体 分 配 过 程 中 ，Storage 
也 可 以 向 On-Heap 这 部 分 Execution 借用 内 存 。 

关于 内 存 池 部 分 ， 可 以 阅读 Spark 内 存 管理 的 相关 源码 加 深 理解 。 内 存 池 相关 类 图 如 图 
28-3 所 示 。 











































增加 内 存 池 大 小 
内 在 池 一 减少 内 在 池 大 小 内 存 管 理 
内 存 池 大 / 
执行 内 存 池 静态 内 存 管理 统一 内 企管 理 
存储 内 存 池 











已 使 用 内 存 





从 存储 内 存 池 中 获取 内 存 空 间 
从 存储 内 存 空 


间 释 放 掉 block 
的 空间 


图 28-3 ”内存 池 相关 类 图 
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主要 是 通过 内 部 池 大 小 和 使 用 的 内 存 大 小 等 进行 控制 ， 对 应 统一 内 存 管理 模型 ， 需 要 考 
虑 内 存 借 用 等 具体 实现 〈 关 键 代码 可 以 查看 UnitedMemoryManager 对 StorageMemoryPool 类 
的 shrinkPoolToFreeSpace 方法 的 调用 ) 。 

以 上 是 对 Tungsten 的 两 种 内 存 管理 模型 的 简单 解析 , 下 面 开 始 对 内 存 管理 模型 的 内 部 组 
织 结构 进行 解析 。 


3. 内 存 管 理 模型 中 对 内 存 描述 的 封装 


关于 ProjectTungsten 的 相关 内 容 ， 可 以 参考 https://github.com/hustnn/TungstenSecret。 其 
中 对 Page Table 给 出 了 描述 非常 详细 的 说 明 图 。 

下 面 从 最 基本 的 源码 开始 逐步 分 析 内 存 管理 模型 中 内 存 描 述 的 封装 ， 主 要 包含 内 存 地 址 
的 封装 和 内 存 块 的 封装 ， 分 别 对 应 MemoryLocation 与 MemoryBlock。 

在 ProjectTungsten 中 ， 为 了 统一 管理 On-Heap 与 Off-Heap 两 种 内 存 模式 ， 引 入 了 统一 
的 地 址 表示 形式 ， 即 通过 MemoryLocation 类 来 表示 On-Heap 或 Off-Heap 两 种 内 存 模式 下 的 
地 址 。 

首先 查看 该 类 的 注释 信息 。MemoryLocation.scala 的 源码 如 下 。 











: 
* 一 个 内 存 地 址 ， 用 于 跟踪 off-Heap 模式 下 的 内 存 地 址 或 on-Heap 模式 下 的 内 存 地 址 
2 jd 


3. public class MemoryLocation { 


当 使 用 Off-Heap 内 存 模式 时 ， 内 存 地 址 可 以 通过 64bit 的 绝对 地 址 来 描述 ， 对 应 地 ， 当 
使 用 On-Heap 内 存 模式 时 ， 由 于 GC 过 程 中 会 对 堆 (heap〉 内 存 进 行 重组 ， 因 此 地 址 的 定位 
需要 通过 对 象 在 堆 内 存 的 引用 以 及 在 该 对 象 内 的 偏 移 量 来 表示 ， 此 时 便 需 要 对 象 引 用 和 一 个 
偏 移 量 来 表示 内 存 地 址 。 

因此 ， 在 MemoryLocation 中 定义 了 两 个 成 员 变 量 ， 具 体 代码 如 下 所 示 。 

MemoryLocation.scala 的 源码 如 下 。 


1. Q@Nullable 
2. Object obj; 
3. long offset; 
对 应 两 种 不 同 的 内 存 模式 ， 两 个 成 员 变量 的 描述 如 下 。 
(1) Off-Heap 内 存 模式 ，obj 为 nmol， 地 址 由 64bit 的 offset 唯一 标识 。 
(2) On-Heap 内 存 模式 : obj 为 堆 中 该 对 象 的 引用 ，offset 对 应 数据 在 该 对 象 中 的 偏 移 量 。 
由 以 上 分 析 可 知 ， 通 过 MemoryLocation 类 可 以 统一 定位 一 个 Off-Heap 与 On-Heap 两 种 
内 存 模式 下 的 内 存 地 址 。 
对 应 MemoryLocation 类 的 继承 子 类 为 MemoryBlock。 顾 名 思 义 ， 该 子 类 表示 一 个 内 存 
块 ， 不 管 是 Off-Heap， 还 是 On-Heap 内 存 模式 ， 在 ProjectTungsten 内 存 管理 时 ， 都 使 用 一 块 
连续 的 内 存 空间 来 存储 数据 ， 因 此 即使 是 在 On-Heap 模式 下 ， 也 可 以 降低 GC 的 开销 。 下 面 
查看 一 下 MemoryBlock 类 的 注释 信息 ， 具 体 如 下 所 示 。 

MemoryBlock.scala 的 源码 如 下 。 

1 /时 

* 一 个 连续 的 内 存 块 ， 继 承 自 描述 内 存 地 址 的 MemoryLocation 类 ， 同 时 提供 内 存 块 的 大 小 
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5 本 

3. public class MemoryBlock extends MemoryLocation { 

在 代码 复 用 方式 上 存在 继承 与 组 合 两 种 形式 。 目前 在 MemoryBlock 中 使 用 继承 的 方式 包 
含 内 存 块 的 地 址 信息 。 在 实现 上 ， 也 可 以 采用 组 合 这 种 复 用 方式 ， 指 定 内 存 块 的 地 址 ， 以 及 
内 存 块 本 身 的 内 存 大 小 。 

下 面 简 单 介绍 一 下 MemoryBlock 类 中 除了 继承 自 MemoryLocation 类 之 外 的 部 分 成 员 。 

(1) private final long length: 表示 内 存 块 的 长 度 。 

(2) public int pageNumber: 表示 内 存 块 对 应 的 page 号 。 

(3)public static MemoryBlock fromLongArray(final long[] array): 这 是 提供 的 一 个 将 long 
型 数组 转换 为 MemoryBlock 内 存 块 的 接口 。 

提供 了 内 存 块 之 后 ,进一步 就 是 如 何 去 组 织 这 些 内 存 块 ， 在 Project Tungsten 中 采用 了 类 
似 操 作 系 统 的 内 存 管 理 模 式 , 即使 用 Page Table 方式 来 管理 内 存 。 因 此 ,下面 开 始 对 Page Table 
管理 方式 进行 解析 。 


4. 内 存 管 理 模型 中 的 内 存 组 织 、 管 理 模式 


Spark 是 一 个 技术 框架 ， 数 据 以 分 区 粒度 进行 处 理 ， 即 每 个 分 区 对 应 一 个 处 理 的 任务 
(Task), 因此 内 存 的 组 织 与 管理 等 可 以 通过 与 Task 一 一 对 应 的 TaskMemoryManager 来 理解 。 

下 面 首先 给 出 任务 内 存 管理 与 内 存 管 理 间 的 关系 图 ， 如 图 28-4 所 示 。 

任务 内 存 管理 内 存 管理 
内 存 池 




















存储 内 存 池 


堆 执行 内 存 池 > 


堆 外 执行 内 存 池 
ee 
内 在 分 配 


不 安全 内 他 分 配 


下 


内 存 存储 











内 存 使 用 





































































堆 内 存 分 配 


























图 28-4 任务 内 存 管理 与 内 存 管理 间 的 关系 图 


在 图 28-4 中 ,各 个 内 存 使 用 是 具体 处 理 时 需要 使 用 〈 消 耗 ) 内 存 块 的 实体 ， 内 存 使 用 通 
过 任务 内 存 管理 提供 的 接口 向 内 存 管 理 申 请 或 释放 内 存 资源 ， 即 申请 或 释放 内 存 块 ， 任 务 内 
存 管 理 类 中 会 管理 全 部 内 存 使 用 ， 并 对 这 些 内 存 消耗 实体 申请 的 内 存 块 进行 组 织 与 管理 ， 具 
体 是 通过 PageTable 的 方式 实现 的 。 

首先 查看 一 下 类 的 注释 信息 ， 原 注释 信息 比较 多 ， 在 此 仅 给 出 简单 的 中 文 描述 ， 有 具体 代 


sx。 
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* 1. Off-Heap : MemoryBlock 的 base object 为 null， 偏 移 量 对 应 64-bit 的 


2. On-Heap : MemoryBlock 的 base object 保存 对 象 的 引用 (该 引用 可 以 由 page 


* ”通过 这 两 种 内 存 模式 对 应 的 编码 方式 ， 最 终 对 外 提供 的 编码 格式 为 13bit-pageNumber + 


人 码 如 下 所 示 。 
1. /** 
A We 
35 * 管理 为 单个 Task 分 配 的 内 存 
a * 内 存 地 址 在 不 同 的 内 存 模 式 下 的 表示 : 
5 * 1. Off-Heap : 直接 使 用 64-bit 表示 内 存 地 址 
6 * 2. On-Heap : 通过 base object 和 该 对 象 中 64-bit 的 偏 移 量 表示 
”请 * 通过 封装 类 MemoryBlock 统一 表示 内 存 块 信息 : 
8. 
* 绝对 地 址 
于 
* 的 索引 从 pageTable 获取 ) 
T1052 偏 移 量 对 应 数据 在 该 对 象 中 的 偏 移 量 
11s 区 
2 
* 51bit-offset 
i 有 沉 */ 


14. public class TaskMemoryManager { 
下 面 从 3 个 方面 对 任务 内 存 管理 进行 解析 , 包含 内 存 地 址 的 编码 与 解码 、 PageTable 的 组 


织 与 管理 


!， 以 及 内 存 的 分 配 与 释放 。 


首先 解析 内 存 地 址 的 编码 与 解码 部 分 。 从 任务 内 存 管 理 类 的 注释 部 分 可 知 ，Off-Heap 与 
On-Heap 两 种 内 存 模 式 最 终 对 外 都 是 采用 一 致 的 编码 格式 ， 即 对 应 13bit 的 Page Number (页 
码 ) 和 51bit 的 offset( 偏 移 量 ) ， 可 以 通过 图 28-5 来 描述 对 应 的 编码 方式 。 


下 面 分 别 对 TaskMemoryManager 类 中 与 编码 和 解码 相关 的 几 个 接口 进 





Off-Heap 内 存 模 式 


On-Heap 内 存 模式 











相对 绝对 地 址 的 
偏 移 量 





-一 一 





已 有 的 对 象 内 部 
的 仿 移 量 








Page Number 
(13bit) 








Offset 
(51bit) 








图 28-5 ”Page 的 编码 方式 








行 解析 .编码 接口 


主要 有 两 个 ，encodePageNumberAndOffset 和 decodePageNumber、decodeOffset， 其 源码 与 解 
析 如 下 所 示 。 
TaskMemoryManager.scala 的 encodePageNumberAndOffset 的 源码 如 下 。 


FS 
妨 寺 


/** 


* 给 定 该 页 中 的 内 存 页 和 偏 移 量 ， 将 此 地 址 编码 为 64 位 长 。 只 要 对 应 的 页 面 没有 被 释放 ， 
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* 这 个 地 址 仍然 有 效 

过 司 来 

4. * @param page 一 个 数据 页 被 其 分 配 {elink TaskMemoryManager#allocatePage}/ 

5 * @param offsetInPage 页 中 的 偏 移 量 包含 基 偏 移 量 。 换 言 之 ， 这 是 作为 基 偏 移 量 传递 
* 给 不 安全 的 调用 的 值 〈 例 如 ，page-baseOoffset () 加 上 某 地 址 ) 

) * @return 编码 页 地 址 

SS 

Be * 将 针对 某 个 Page 的 地 址 进行 编码 : 

9. * On-Heap : offsetInPage 是 针对 base object 的 偏 移 量 。 

os * Off-Heap : 此 时 ，offsetInPage 是 绝对 地 址 ， 因 此 编码 到 Page 方式 的 地 址 时 ， 

3 来 需要 将 绝对 地 址 转换 为 相对 于 已 有 的 Page (MemoryBlock) 中 的 绝对 地 址 
* offset 的 相对 地 址 ， 最 后 将 得 到 的 两 个 偏 移 量 和 Page Number 一 起 组 装 
到 (13 + 51) bit 的 64 bit 中 


2 这 大 

了 3 

14. 

15. public long encodePageNumberAndOffset (MemoryBlock page, long offsetInPage) { 
16. if (tungstenMemoryMode == MemoryMode.OFF HEAP) { 

RE // 如 果 是 Off-Heap, 则 对 应 的 offsetInPage 为 64bit 的 绝对 地 址 , 需要 转换 为 Page 


18. // 编 码 能 容纳 的 51bit 编码 中 ， 因 此 此 时 需要 将 其 转换 为 Page 内 的 相对 地 址 ， 即 页 内 的 
L198 // 偏 移 地 址 


2 offsetInPage -= page.getBaseOffset(); 


235 return encodePageNumberAndOffset (page .pageNumber, offsetInPage); 


26.  @VisibleForTesting 
27. public static long encodePageNumberRndoffset (int pageNumber, long 
offsetInPage) { 

28<= assert (pageNumber != -1) : "encodePageNumberAndOffset called with 
invalid page"; 

29. // 将 13bit 的 页 码 与 51bit 的 页 内 偏 移 量 组 装 成 64bit 的 编码 地 址 

305 return (((long) pageNumber) << OFFSET BITS) | (offsetInPage & MASK 
LONG LOWER 51 BITS); 

Se 


通过 pageNumber 可 以 找到 最 终 的 Page，Page 内 部 会 根据 Off-Heap 或 On-Heap 两 种 模 
式 分 别 存储 Page 对 应 内 存 块 的 起 始 地址 或 对 象 内 偏 移 地 址 ) ， 因 此 编码 后 的 地 址 可 以 通过 
查找 到 Page， 最 终 解码 出 原始 地 址 。 

TaskMemoryManager.scala 的 decodePageNumber、decodeOffset 的 源码 如 下 。 


@VisibleForTesting 
public static int decodePageNumber (long pagePlusOffsetAddress) { 


// 解 析出 编码 地 址 中 的 页 码 信息 
return (int) (pagePlusOffsetAddress >>> OFFSET BITS) 
} 


private static long decodeOffset (long pagePlusOffsetAddress) { 


// 通 过 51bit 掩 码 解析 出 编码 地 址 中 的 页 码 信息 ， 即 对 应 的 低 51bit 内 容 
return (pagePlusOffsetAddress & MASK LONG LOWER 51 BITS); 
} 


在 TaskMemoryManager 类 中 另外 还 提供 了 针对 On-Heap 内 存 模式 下 ， 获 取 base object 


Foc wawm 必 wm 


OO， 
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的 接口 ， 对 应 的 源码 及 其 解析 如 下 所 示 。 
TaskMemoryManager.scala 的 getPage 的 源码 如 下 。 


} 


下 面 开始 解析 Page Table 的 组 


织 与 


方式 进行 组 


/** 


* 


获取 编码 地 址 相关 的 base object 
* {@link TaskMemoryManager#encodePageNumberAndOffset (MemoryBlock, long)} 
*/ 


public Object getPage (long pagePlusOffsetAddress) { 


if (tungstenMemoryMode 
// 首 先 从 地 址 中 解析 出 页 码 
final int pageNumber = decodePageNumber (pagePlusOffsetAddress); 
assert (pageNumber >= 0 && pageNumber < PAGE TABLE SIZE); 
// 根 据 页 码 从 pageTable 变量 中 获取 对 应 的 内 存 块 
final MemoryBlock page = pageTable[pageNumber]; 
assert (page != null); 
assert (page.getBaseObject () 
// 获 取 内 存 块 对 应 的 BaseObject 
return page.getBaseObject (); 
} else { 
//0ff-Heap 内 存 模式 下 MemoryBlock 只 需要 保存 一 个 绝对 地 址 ， 因 此 对 应 base 
object 为 null 
return null; 


} 


MemoryMode.ON HEAP) { 


!= null); 


如 


\ 


与 管理 方面 的 内 容 ， 在 解析 前 先 给 出 内 存 以 Page Table 







































































































织 与 管理 的 大 致 描述 图 ， 如 图 28-6 所 示 。 
分 配 的 内 存 块 〈 页 ) 
页 表 大 小 
页 (1) -内 存 块 
分 配 页 1 | | 医 0 
页 (2) -内 存 块 
而 下 页 | 页 页 
页 表 1 "| i (页 表 大 小 -1) 页 (x) -内 存 块 
nn / 
页 码 《13 位 ) 偏 移 量 (51 位 ) 
| 
相对 绝对 地 址 的 已 有 的 对 象 内 部 的 
偏 移 量 偏 移 虽 
堆 外 内 存 模式 堆 内 在 模式 














图 28-6 内存 以 Page Table 方式 组 织 与 管理 描述 图 


在 图 28-6 中 ， 右 侧 是 分 配 的 内 存 块 ， 即 当前 需要 管理 的 Page， 在 TaskMemoryManager 
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中 , 通过 Page Table 存放 内 存 块 , 同时 , 通过 变量 allocatedPages 中 指定 值 为 Page Number (页 
码 ) 的 下 标 (索引 ) 对 应 的 值 是 否 为 1 来 表示 当前 Page Number 对 应 的 Page Table 中 的 Page 
是 否 已 经 存放 了 对 应 的 内 存 块 , 即 每 当 分 配 到 一 个 内 存 块 时 ， 从 allocatedPages 获取 一 个 值 为 
0 的 位 置 (页 码 ) ， 并 将 该 位 置 作为 内 存 块 放 入 到 Page Table 中 的 位 置 。 

简单 描述 的 话 ， 就 是 用 allocatedPages 中 各 个 位 置 上 的 值 为 1 或 0 来 表示 在 Page Table 
中 的 相同 位 置 是 否 已 经 放置 了 内 存 块 (Page) 。 
而 对 应 在 Page Table 中 已 经 存放 的 内 存 块 ， 实 际 上 就 是 对 应 了 右 侧 已 经 分 配 的 内 存 块 。 
当 针 对 一 个 Page Encode (页 编码 ) 时 ， 首 先 从 中 获取 Page Number (页码 ) ， 根 据 该 值 
从 Page Table (页 表 ) 中 获取 确定 的 内 存 块 (MemoryBlock 或 Page) ， 找 到 确定 内 存 块 之 后 ， 
青 通 过 页 编码 中 的 偏 移 量 (具体 两 种 内 存 模 式 下 的 概念 如 图 28-6 所 示 ) 确定 内 存 块 中 的 相关 
偏 移 量 ， 如 果 是 Off-Heap， 则 该 偏 移 量 是 相对 于 内 存 块 (从 前 面 分 析 可 知 ， 内 存 块 本 身 的 信 
息 也 与 内 存 模式 相关 ) 中 的 绝对 地 址 的 相对 地 址 ， 如 果 是 On-Heap， 则 该 偏 移 量 是 相对 于 内 
存 块 的 base object 中 的 偏 移 量 。 

相关 的 源码 主要 涉及 TaskMemoryManager 类 的 两 个 成 员 变 量 ， 如 下 所 示 。 

TaskMemoryManager.scala 的 源码 如 下 。 


// 对 应 图 中 的 页 表 
private final MemoryBlock[] pageTable = new MemoryBlock [PAGE TABLE SIZE]; 





// 对 应 图 中 的 分 配 页 
private final BitSet allocatedPages = new BitSet (PAGE TABLE SIZE); 
PageTable 的 组 织 与 管理 中 关于 页 码 的 偏 移 量 已 经 在 上 一 部 分 给 出 详细 描述 ,而 对 应 的 上 县 
体 的 管理 操作 则 与 实际 的 内 存 分 配 与 解析 部 分 相关 。 下 面 通过 内 存 分 配 与 解析 部 分 来 详细 解 
析 具 体 的 管理 细节 。 
下 面 开始 分 析 TaskMemoryManager 类 提供 的 内 存 分 配 与 解析 部 分 。 关 于 这 部 分 内 容 , 主 
要 参考 allocatePage 与 freePage 两 个 方法 ， 对 于 allocatePage 内 部 如 何 申请 内 存 ， 以 及 申请 内 
存 时 采用 的 Spil 策略 等 细节 ， 大 家 可 以 继续 深入 , 例如 查看 acquireExecutionMemory 的 具体 
源码 来 加 深 理解 。 
TaskMemoryManager.scala 的 allocatePage 的 源码 如 下 。 
: /** 
2 *# 分 配 内 存 块 , 将 在 MemoryManage 的 页 表 中 记录 ; 这 是 用 于 分 配 大 型 共享 Tungsten 内 
* 存 块 ， 这 些 内 存 将 在 操作 算 子 之 间 共 享 。 如 果 没 有 足够 的 内 存 来 分 配 页 面 ， 则 返回 null。 返 
* 回 页 包含 的 字 节 可 以 比 请 求 的 字 节 少 ， 因 此 调用 者 应 该 验证 返回 页 面 的 大 小 
区 所 来 
机 * 分 配 一 块 内 存 , 并 通过 MemoryManager( 实 际 上 是 在 TaskMemoryManager 中 ) 的 Page 
* Table 进行 跟踪 ; 分 配 的 是 Execution 部 分 的 内 存 


w 心 wmN 





5. * Project Tungsten 的 内 存 包 仿 off-Heap 和 on-Heap 两 种 模式 ， 由 底层 tungsten 
* MemoryMode (在 MemoryManager 中 设置 ) 控制 具体 分 配 的 MemoryAllocator 子 类 

65 */ 

hs 

Ba public MemoryBlock allocatePage (long size, MemoryConsumer consumer) { 

9 assert (consumer != null); 

Os assert (consumer.getMode() == tungstenMemoryMode); 

TT // 页 大 小 的 限制 

站 if (size > MAXIMUM PAGE SIZE BYTES) { 
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throw new IllegalArgumentException( 
"Cannot allocate a page with more than " + MAXIMUM PAGE SIZE BYTES 
++" bytes”)s? 
} 
// 申 请 一 定 的 内 存量 
long acquired = acquireExecutionMemory (size, consumer); 
if (acquired <= 0) { 
return null; 


} 


final int pageNumber; 
synchronized (this) { 
// 获 取 当 前 未 被 占用 的 页 码 
pageNumber = allocatedPages.nextClearBit (0); 
if (pageNumber >= PAGE TABLE SIZE) { 
releaseExecutionMemory (acquired, consumer); 
throw new IllegalStateException( 
"Have already allocated a maximum of " + PAGE TABLE SIZE + 
"pages"); 


下 
// 设 置 该 页 码 已 经 被 占用 〈 即 设置 对 应 页 码 位 置 的 值 》 
allocatedPages .set (pageNumber); 


} 
MemoryBlock page = null; 
try { 


// 开 始 通 过 MemoryAllocator 真正 分 配 内 存 

// 注 意 : acquireExecutionMemory 中 通过 ExecutionMemoryPool 进行 分 配 时 ， 
// 仅 仅 是 内 存 使 用 大 小 上 的 控制 ， 并 没有 真正 分 配 内 存 

// 有 兴趣 的 话 ， 可 以 查看 对 acquireExecutionMemory 的 调用 点 (其 中 

// 可 以 指定 与 tungstenMemoryMode 不 同 的 其 他 内 存 模式 ， 

// 此 时 是 不 存在 真正 的 内 存 分 配 的 》 


page = memoryManager.tungstenMemoryAllocator() .allocate (acquired); 
} catch (OutOfMemoryError e) { 

logger.warn("Failed to allocate a page ({} bytes), try again.", 
acquired); 
// 实 际 上 没有 足够 的 内 存 ， 这 意味 着 实际 的 空闲 内 存 小 于 MemoryManager 管理 的 内 存 ， 
// 我 们 应 该 保持 获得 的 内 存 
synchronized (this) { 

acquiredButNotUsed += acquired; 

allocatedPages.clear (pageNumber); 


; 
// 这 可 能 会 触发 游 出， 释放 一 些 页 面 
return allocatePage (size, consumer); 


} 


// 分 配 得 到 内 存 块 之 后 , 会 设置 该 内 存 块 对 应 的 pageNumber， 即 此 时 设置 MemoryBlock 
// 在 其 管理 的 Page Table 中 的 位 置 


page.pageNumber = pageNumber; 

pageTable [pageNumber] = page; 

if (logger.isTraceEnabled()) { 
logger.trace ("Allocate page number {} ({} bytes)", pageNumber, 
acquired); 


a 
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64. 4 
655= return page; 
66. } 


其 中 ,MAXIMUM PAGE SIZE_BYTES 是 页 内 数据 量 的 最 大 限制 , 从 之 前 MemoryBlock 
提供 的 long 型 数组 转换 得 到 MemoryBlock 接口 ， 可 以 知道 当前 连续 的 内 存 块 是 通过 long 型 
数组 来 获取 的 ， 因 此 对 应 的 内 存 块 的 大 小 也 会 受到 数组 的 最 大 长 度 的 限制 。 

至 于 对 应 在 具体 的 处 理 过 程 中 ， 对 页 内 的 数据 量 大 小 是 否 还 有 其 他 限制 ， 可 以 参考 具体 
的 处 理 细节 。 下 一 节 会 给 出 一 个 具体 处 理 过 程 的 源码 解析 ， 其 中 会 包含 这 部 分 内 容 。 

由 于 分 配 的 细节 比较 多 ， 这 里 只 给 出 主要 的 过 程 描述 。 

(1) 首先 通过 acquireExecutionMemeory 方法 ， 问 ExecutionMemoryPool 申请 内 存 〈 根 据 
统一 或 静态 两 种 具体 实现 给 出 ) : 这 一 部 分 主要 是 判断 当前 可 用 内 存 是 否 满足 申请 需求 ， 并 
根据 申请 结果 修改 当前 内 存 池 可 用 内 存 信息 《实际 是 当前 使 用 内 存量 信息 ) 。 

(2) 从 当前 Page Table 中 找 出 一 个 可 用 位 置 ， 用 于 存放 所 申请 的 内 存 块 (MemoryBlock 
或 Page) 。 

(3) 准备 好 前 两 步 后 ， 开 始 通 过 MemoryAllocator 真正 分 配 内 存 块 。 

(4) 将 分 配 的 内 存 块 放 入 Page Table。 

在 整个 过 程 中 ，allocatedPages 与 pageTable 这 两 个 成 员 变 量 的 使 用 是 体现 Page Table 组 
织 与 管理 的 关键 所 在 。 

下 面 解析 freePage 的 源码 ， 如 下 所 示 。 

TaskMemoryManager.scala 的 freePage 的 源码 如 下 。 





:IE 

* Free ablock of memory allocated via {@link TaskMemoryManager#allocate 
* Page}. 

3 * 更 新 Page Table 相关 信息 ， 通 过 MemoryAllocator 释放 Page 的 内 存 ， 最 后 通过 

4 * MemoryManager 修改 ExecutorManagerPool 中 的 内 存 使 用 量 〈 即 释放 ) 

5 */ 

6 

J public void freePage (MemoryBlock page, MemoryConsumer consumer) { 

8 // 首 先 确认 当前 释放 的 内 存 块 在 Page Table 的 管理 中 ， 即 页 码 必 须 有 效 

9 assert (page.pageNumber != -1) : 

OG "Called freePage () on memory that wasn't allocated with allocatePage ()"; 

1. assert (allocatedPages .get (page.pageNumber)); 

2 pageTable [page.pageNumber] = null; 


: 攻 信 //allocatedPages 是 控制 page Table 中 对 应 位 置 是 否 可 用 的 ， 需 要 考虑 释放 与 分 配 时 
// 的 并 发 性 ， 因 此 需 同 步 处 理 


14. 

9 

16 . synchronized (this) { 

如 allocatedPages.clear (page .pageNumber); 

48 上 

19 . if (logger.isTraceEnabled()) { 

20e logger.trace ("Freed page number {} ({} bytes)", page.pageNumber, 
page.size()); 

Pp } 

222 // 通 过 当前 内 存 模式 对 应 的 MemoryAllocator 真正 释放 该 内 存 块 

2 long pageSize = page.size(); 

24: memoryManager .tungstenMemoryRAl1locator () .free (page) 

25. // 对 应 ExecutionMemoryPool 部 分 的 内 存 释 放 ， 参 考 前 面 acquireExecutionMemory 
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// 解 析 一 起 了 解 
之 Ge 
全 
28 . releaseExecutionMemory (pageSize, consumer); 
29.5 


释放 Page 的 罗 辑 实际 上 可 以 参考 申请 Page， 大 部 分 都 是 步骤 相反 而 已 。 
28.2.3 二进制 处 理 及 其 实现 类 的 解析 


就 目前 来 说 ，Project Tungsten 的 二 进 制 数据 处 理 主要 用 在 Shuffle、SQL 的 aggregation 
(聚合 ) 〈 以 及 其 他 操作 ) 的 数据 上 ， 像 为 其 他 非 JVM 的 本 地 类 库 ( 如 C++ 类 库 ) 等 提供 内 
存 访问 已 经 解决 《有 兴趣 的 读者 可 以 参考 https://issues.apache.org/jira/browse/SPARK-10399 
部 分 ) 。 

本 书 基于 Shuffle 过 程 ， 解 析 在 源码 中 具体 如 何 使 用 Project Tungsten 来 处 理 数 据 ， 对 应 
其 他 操作 的 处 理 细节 ， 可 以 参考 对 应 的 issues 及 其 设计 文档 。 例 如 ， 在 聚合 方面 使 用 Project 
Tungsten 内 存 模 型 的 详细 设计 可 以 参考 https://issues.apache.org/jira/browse/SPARK-7080， 对 
应 的 设计 文档 为 https://github.com/apache/spark/pull/5725。 读 者 可 以 基于 这 些 设计 文档 ， 然 后 
参考 本 节 的 源码 解析 过 程 加 深 理解 。 

在 前 面 Tungsten Sorted Based Shuffle 写 数据 的 源码 解析 中 已 经 提 到 ， 写 数据 时 ， 会 使 用 

-个 外 部 排序 器 ShuffleExternalSorter 对 Shuffle 数据 进行 排序 ， 该 外 部 排序 器 中 的 数据 处 理 
就 是 建立 在 Project Tungsten 内 存 模型 基础 之 上 的 。 因 此 ， 本 节 继 续 深 入 解析 Shuffle 写 数 据 
的 过 程 ， 从 Project Tungsten 内 存 模 型 的 使 用 角度 结合 源码 进行 解析 。 

首先 ， 从 前 面 对 TaskMemoryManager 的 源码 解析 可 以 知道 , 所 有 内 存 申请 与 释放 的 请 求 
都 是 通过 MemoryConsumer 提交 的 ， 因 此 首先 需要 了 解 在 Shuffle 的 写 过 程 中 ， 外 部 排序 器 
ShuffleExternalSorter 与 内 存 消费 者 MemoryConsumer 之 间 的 关系 。 为 了 了 解 这 一 点 ， 可 以 先 
查看 ShufftleExtermalSorter 类 的 注释 与 类 定义 ， 具 体 源码 如 下 所 示 。 

工 。 /水 

2 * 为 sort-base Shuffle 定制 的 外 部 排序 器 

3 * 输入 的 记录 会 附加 到 数据 pages 中 。 当 所 有 数据 插入 后 (或 当前 线程 分 配 的 Shuffle 内 

* 存 达到 极限 时 ) ， 内 存 中 (in-memory) 的 记录 会 根据 分 区 ID 进行 排序 (使 用 shuffleIn 
* MemorySorter)。 排 序 后 的 记录 会 写 入 一 个 输出 文件 (或 多 个 文件 , 如 果 发 生 spilled) 。 
* 输出 文件 的 格式 与 SortshuffleWriter 的 输出 文件 格式 相同 : 

4. *# 每 个 输出 的 分 区 记录 通过 一 个 序列 化 的 、 压 缩 的 流 写 入 ， 之 后 再 使 用 解压 的 、 反 序列 化 的 流 读 取 

5 * 与 ExternalSorter 不 同 ，ExternalSorter 排序 器 不 会 进行 Spil1 文件 的 合并 

6. * 而 ShuffleExternalSorter 排序 器 在 最 后 会 进行 合并 , 使 用 一 个 可 以 避免 序列 化 / 反 序 

* 列 化 的 特定 的 合并 过 程 
演 * ShuffleExternalSorter 继承 了 MemoryConsumer， 会 向 TaskMemoryManager 申 


* 请 释放 Execution 内 存 
BE */ 
9. final class ShuffleExternalSorter extends MemoryConsumer { 


可 以 看 到 ，ShuffleExtemalSorter 继承 了 MemoryConsumer， 因 此 在 数据 处 理 时 可 以 向 
TaskMemoryManager 申请 /释放 Execution 内 存 。 
对 应 地 ， 其 他 建立 在 Project Tungsten 内 存 模型 基础 上 的 数据 处 理 ， 也 可 以 通过 查看 





se 
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MemoryConsumer 的 子 类 来 获取 ， 例 如 ， 前 面 SPARK-7080 提 到 的 设计 文档 中 的 

BytesToBytesMap 子 类 。 本 节 则 在 通过 某 个 具体 子 类 的 源码 解析 ， 提 供 一 种 源码 阅读 方式 。 
在 详细 解析 源码 之 前 ,同样 先 给 出 ShuffleExtemalSorter 在 内 存 处 理 上 的 流程 ,如 图 28-7 

所 示 。 







































































不 安全 Shuffle 写 入 任务 内 存 管理 

1 AN 人 内 存世 
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| | 内 存 块 
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| | 6. 分 配 页 
| [如 ] | 5. 插入 记录 
re : | ShufnelnMemorySorter 

由 区 束 型 数组 类 




















代 器 
图 28-7 ShuffleExternalSorter 处 理 流 程 图 


流程 的 步骤 如 下 所 示 。 

(1) 首先 插入 记录 ， 由 UnsafeShuffleWriter 调用 ShuffleExtemalSorter 的 insertRecord 方 
法 ， 向 currentPage 插入 一 条 记录 ， 即 图 28-7 中 的 第 1 步 insertRecord。 

(2) 此 时 ， 如 果 当 前 页 内 存 未 分 配 ， 或 剩余 空间 不 足以 容纳 记录 数据 ， 则 向 TaskMemory 
Manager 申请 内 存 ， 即 图 28-7 中 的 第 2 步 allocatePage。 

(3) 在 申请 内 存 时 ， 有 可 能 由 于 内 存 压 力 而 产生 MemoryConsumer 〈 即 这 里 的 Shuffle 
ExternalSorter) 的 Spil 操作 ， 即 图 28-7 中 的 第 3 步 Spill。 

(4) 触发 Spill 操作 时 ， 会 获取 ShuffleInMemorySorter 的 排序 数据 的 友 代 器 ， 将 排序 后 
的 数据 Spill 到 文件 中 ， 即 图 28-7 中 的 第 8 步 getSortedIterator， 同 时 会 再 释放 
ShuffleExternalSorter 占用 的 内 存 〈 通 过 由 记录 的 内 存 页 allocatedPages 实现 ) ， 即 图 28-7 中 
的 第 4 步 freePage。 

(5) 当 currentPage 能 够 容纳 记录 数据 时 ， 将 数据 插入 到 内 存 页 中 ， 同 时 会 将 记录 的 编码 
地 址 插入 到 ShufflemMemorySorter 的 LongArray 中 ， 即 图 28-7 中 的 第 5 步 insertRecord。 

(6) 在 插入 编码 地 址 的 过 程 中 ， 也 可 能 会 由 于 LongArray 内 存 不 足 而 向 TaskMemory 
Manager 申请 内 存 ， 即 图 28-7 中 的 第 6 步 allocatedPage。 在 申请 过 程 中 也 可 能 会 触发 spill， 
这 和 前 面 内 存 申 请 时 描述 的 过 程 一 样 。 

(7) 完成 记录 插入 后 也 会 调用 第 8 步 的 getSortedIterator， 获 取 在 ShuffleInMemorySorter 
的 LongArray 中 未 Spill 到 文件 的 内 存 数 据 ， 然 后 写 入 最 后 一 个 文件 〈 所 以 ， 这 个 文件 写 入 的 
数据 量 不 作为 Spill 的 Metric 度量 信息 ) 。 

在 整个 处 理 流程 中 ， 比 较 难以 理解 的 是 数据 或 地 址 在 内 存 中 的 存储 与 处 理 〈 处 理 实际 是 
用 与 存储 相反 的 过 程 来 读 取 数据 进行 处 理 的 ， 所 以 本 质 上 还 是 理解 数据 是 以 何 种 方式 存 入 内 
存 页 的 ) 。 
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插入 记录 的 二 进 制 数 据 处 理 : 

ShuffleExtemalSorter 类 的 内 部 处 理 过 程 ， 可 以 先 从 该 类 在 UnsafeShuffleWriter 中 的 使 用 
开始 去 理解 。 如 果 已 经 熟悉 了 UnsafeShuffleWriter 的 写 数据 过 程 ， 可 以 直接 忽略 ; 如 果 不 熟 
悉 ， 也 可 以 简单 地 在 UnsafeShuffleWriter 类 中 搜索 ShuffleExternalSorter 类 的 调用 点 来 获取 二 
进 制 数据 处 理 的 入 口 。 

下 面 直 接 从 ShuffleExtemalSorter 类 基于 Project Tungsten 内 存 模型 处 理 数据 的 关键 入 口 
点 开始 解析 插入 记录 的 二 进 制 数据 处 理 (对 应 ShuffleExtemalSorter 的 在 UnsafeShuffleWriter 
类 的 open 与 stop 方法 中 的 处 理 可 以 暂时 忽略 ) ， 也 就 是 图 28-7 中 的 第 1 步 insertRecord， 即 
从 UnsafeShuffleWriter 的 insertRecordIntoSorter 方法 中 相关 的 源码 部 分 开始 。 

UnsafeShuffleWriter.scala 的 源码 如 下 。 





FE void insertRecordIntoSorter (Product2<K, V> record) throws IOException { 

He 

3 sorter.insertRecord!( 

4. serBuffer.getBuf(), Platform.BYTE ARRAY OFFSET, serializedRecordSize, 
partitionId); 

本 1 


其 中 ，sorter.insertRecord 是 解析 的 关键 入 口 点 ， 也 就 是 ShuffleExtermalSorter 的 insertRecord 
方法 。 在 该 方法 中 会 把 当前 的 serBuffer 内 容 ( 即 一 条 记录 数据 ) 插入 到 ShuffleExternalSorter 
中 。 因 此 ， 接 下 来 首先 分 析 insertRecord 方法 ， 对 应 的 源码 及 其 解析 如 下 所 示 。 

ShuffleExtemalSorter.scala 的 insertRecord 的 源码 如 下 。 


了 Pn 

* 向 Shuffle 排序 器 写 入 一 条 记录 
全 */ 
3 


4. public void insertRecord (Object recordBase, long recordOoffset, int length, 
int partitionId) 


S| throws IOException { 

[ 

ye // 测 试 使 用 

9= assert (inMemSorter != null); 

9. if (inMemSorter.numRecords() >= numElementsForSpillThreshold) { 

10. logger.info("Spilling data because number of spilledRecords crossed 
the threshold " + numElementsForSpillThreshold); 

Js SpiLL(s 

2 } 

13. // 如 果 需 要 ， 增 加 内 存 中 排序 所 需 的 LongArray 内 存 大 小 

14. growPointerArrayIfNecessary (); 

LS 


16. // 需 要 4 个 字 节 来 存储 记录 长 度 
1 // 记 录 插 入 时 ， 以 记录 长 度 作为 起 始 信息 ， 然 后 是 对 应 该 长 度 的 记录 数据 
18 // 因 此 申请 的 内 存 大 小 需要 考虑 长 度 本 身 占 的 4 个 字 节 


.9s final int required = length + 4; 

205 acquireNewPageIlfNecessary (required); 

这 下 

和 assert (currentPage != null); 

23> // 获 取 当 前 页 的 base object 

2 final Object base = currentPage.getBaseObject (); 


ZE // 针 对 currentPage 内 的 页 游标 〈 当 前 起 始 地 址 ) 进行 编码 
2 // 该 地 址 对 应 该 记录 的 起 始 地 址 〈 格 式 : 4 字 节 的 长 度 + 记录 数据 ) 


ys 
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75 final long recordAddress = taskMemoryManager .encodePageNumberAndoffset 
(currentPage, pageCursor); 
28: 
29- // 首 先 将 记录 的 长 度 (Int，4 字 节 ) 放 入 base + pageCursor 对 应 的 内 存 地 址 ， 
// 更 新 当前 页 内 地 址 pageCursor 
30 . Platform-putInt (base, pageCursor, length); 
3 pageCursor += 4; 
2 // 将 记录 数据 recordBase + recordOffset 复制 到 base + pageCursor (已 更 新 4 字 节 ) 
// 中 ， 长 度 为 记录 长 度 ， 更 新 当前 页 内 地 址 pageCursor 
< 世 沪 Platform.copyMemory (recordBase, recordoffset, base, pageCursor, length); 
人 pageCursor += length; 
3 // 将 记录 的 编码 地 址 (PageNumber + 页 内 Offset ) 及 其 分 区 号 插入 到 内 存 排序 器 中 
36 inMemSorter.insertRecord (recordAddress, partitionId); 
ST 
这 里 主要 解析 记录 如 何 存储 在 内 存 页 ， 即 内 存 页 中 记录 的 组 织 形式 ， 可 以 通过 图 28-8 来 
描述 : 
一 条 记录 的 表示 有 形式 一 条 记录 在 内 存 页 中 的 存储 形式 
length } 
recordBas 记录 的 长 度 河 录 的 名 
记录 的 数据 >| [oOengty Ee 
! 4B 1 
recordOffset | 全 | 和 全 全 全 下 二 二 -区 
page Cuer 在 当前 游标 处 在 入 


内 存 页 








图 28-8 内存 页 中 记录 的 组 织 形式 


将 记录 存 入 内 存 页 时 ， 首 先是 在 内 存 页 当前 游标 (pageCursor) 所 在 位 置 存放 该 记录 的 
数据 长 度 〈 长 度 long 类 型 对 应 4B， 因 此 占用 的 空间 是 记录 数据 的 长 度 +4B) ， 然 后 通过 描述 
记录 数据 信息 的 三 元 素 ， 将 记录 数据 复制 到 数据 长 度 后 面 的 内 存 页 空间 中 。 

对 记录 数据 信息 的 三 元 素描 述 如 下 : 

(1) recordBase: 记录 数据 所 在 的 对 象 。 

(2) recordOffset: 记录 数据 在 对 象 中 的 偏 移 量 。 

(3) length: 记录 数据 的 长 度 。 

在 处 理 过 程 中 ， 通 过 TaskMemoryManager 的 encodePageNumberAndOffset 方法 , 将 记录 











在 内 存 页 中 的 存储 地 址 进行 编码 (存储 时 已 经 包含 记录 的 长 度 和 数据 ， 因 此 只 需要 起 始 地 址 
即 可 ) ,并 将 该 编码 地 址 和 所 在 分 区 ID 一 起 插入 到 inMemSorter(ShuffletmMemorySorter) 变 量 
中 。 继 续 查 看 插入 的 信息 如 何在 ShuffleInMemorySorter 中 组 织 ， 具 体 源码 如 下 所 示 : 











ShuffleInMemorySorter.scala 的 insertRecord 的 源码 如 下 。 


“gy 
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汪汪 public void insertRecord(long recordPointer, int partitionId) { 

2 if (!hasSpaceForAnotherRecord()) { 

六合 throw new IllegalStateException ("There is no space for new record"); 
4. 1 

// 以 PackedRecordPointer 封装 记录 数据 的 编码 地 址 

;再 // 编 码 格式 为 : 24bit-PartitionId + 13bit-PageNumber + 27bit-offset 

// 说 明 : array 对 应 元 素 为 Long 类 型 ， 因 此 长 度 为 64bit 

晤 5 array.set (pos, PackedRecordPointer.packPointer (recordPointer, partitionId)); 
OCS 

| 


插入 到 ShufflemMemorySorter 时 ， 会 将 信息 重新 封装 为 PackedRecordPointer， 然 后 存放 
到 LongArray 中 。PackedRecordPointer 封装 示意 图 如 图 28-9 所 示 。 




















记录 指针 

页 码 〈13 位 》 偏 移 量 51 位 ) 分 区 KID 已 
封装 记录 指针 

分 区 ID 号 24 位 ) 页 码 (13 位 ) 偏 移 量 〈27 位 ) 














图 28-9 PackedRecordPointer 封装 示意 图 


最 终 将 记录 的 编码 地 址 recordPointer 通过 PackedRecordPointer 包装 成 一 个 64bit 的 long 
型 地 址 ， 即 在 ShuffleInMemorySorter 的 LongArray 中 存放 的 是 重新 包装 后 的 地 址 ， 从 该 地 址 
可 以 看 到 ， 地 址 中 包含 了 分 区 ID 信息 PartitionId， 该 信息 是 用 于 记录 排序 的 。 对 应 的 页 内 偏 
移 量 也 缩 成 了 27bit， 因 此 在 使 用 ProjectTungsten 内 存 模型 时 ， 记 录 的 长 度 也 从 原先 的 22_1 
变 成 了 22”-1《〈 即 当 记录 长 度 超过 该 值 时 ， 无 法 使 用 基于 Tungsten 的 Shuffle 机 制 ) 。 同 样 ， 
使 用 时 分 区 的 数量 也 会 受到 限制 ， 即 只 能 有 2 一 1 个 分 区 。 

对 应 地 ， 在 插入 数据 的 过 程 中 使 用 的 两 个 方法 在 某 些 细节 上 可 能 不 容易 理解 ， 因 此 这 里 
给 出 简单 的 源码 及 其 解析 。 

首先 是 growPointerArrayIfNecessary 方法 。 

UnsafeExternalSorter.scala 的 growPointerArrayIfNecessary 的 源码 如 下 。 





:ee private void growPointerArrayIfNecessary() throws IOException { 
蕊 assert (inMemSorter != null); 

3. if (!inMemSorter.hasSpaceForAnotherRecord()) { 

让 long used = inMemSorter.getMemoryUsage(); 

LongArray array; 

6 try { 

y // 将 触发 溢出 

8 // 内 部 会 通过 TaskMemoryManager 的 allocatePage 方法 申请 内 存 
9 . // 在 申请 时 遇 到 内 存 不 足 时 ， 会 采用 一 定 的 策略 进行 Spil1 

0 array = allocateArray (used / 8 * 2); 

hh 属 } catch (OutOfMemoryError e) { 

2 // 应 触发 溢出 

EE if (!inMemSorter.hasSpaceForAnotherRecord()) { 

14. logger.error ("Unable to grow the pointer array") 7 


“9 
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153 throw ez 

16. * 

97 二 return; 

18 . 时 

9 // 如 果 在 申请 内 存 过程 中 触发 了 溢出 ， 使 得 inMemSorter 有 空间 容纳 另 一 条 记录 ， 
// 则 释放 刚 申请 的 array (LongArray 内 部 组 合 了 申请 的 内 存 块 MemoryBlock) 

20. if (inMemSorter.hasSpaceForAnotherRecord()) { 

2 freeArray (array); 

这 } else { 

23. // 如 果 没 有 触发 spil11， 则 ijnMemSorter 使 用 新 的 array (内 部 会 有 旧 数 据 的 迁移 ) 

24. inMemSorter .expandPointerArray (array); 

区 

BE } 

区 } 


其 次 是 acquireNewPageIfNecessary 方法 。 
UnsafeExtemalSorter.scala 的 acquireNewPagelfNecessary 的 源码 如 下 。 


1 
* 为 了 插入 一 些 新 的 记录 而 申请 更 多 的 内 存 会 从 内 存 管理 处 申请 所 需 的 内 存 ， 并 在 申请 失败 时 
*# 触 发 Spil1 

2 */ 

3. private void acquireNewPageIfNecessary(int required) { 

加 // 当 初始 情况 或 当前 页 (currentPage) 剩余 空间 不 足以 容纳 所 要 求 的 大 小 时 ， 申 请 新 的 


// 内 存 页 ， 并 更 新 当前 页 的 游标 (指向 当前 页 中 可 用 内 存 的 起 始 位 置 ) ， 同 时 将 当前 内 存 也 

// 放 入 allocatedPages， 以 便 后 续 在 Spil1 或 Stop 等 情况 下 释放 全 部 页 内 存 

if (currentPage == null 11 
pageCursor + required > currentPage.getBaseOffset() + currentPage. 
size()) { 

7 // 待 办 事项 TODO: 尝试 在 前 一 页 找到 空间 

8 currentPage = allocatePage (required); 

:EE pageCursor = currentPage.getBaseOffset (); 

Os allocatedPages .add (currentPage); 

11 } 

:A 


Spill 时 二 进 制 数据 的 处 理 : 

可 以 将 继承 MemoryConsumer 类 的 子 类 作为 二 进 制 解 析 数 据 的 关键 入 口 点 ， 从 前 面 对 
TaskMemoryManager 类 的 解析 源码 中 已 经 知道 ， 当 内 存 不 足 时 ， 会 采用 某 种 策略 调用 
MemoryConsumer 的 Spill 方法 〈 对 应 策略 比较 简单 ， 可 以 直接 参考 源码 ) ， 因 此 ，Spill 方法 
也 是 理解 ShuffleExternalSorter 类 内 部 处 理 过 程 的 一 个 关键 入 口 点 。 

下 面 是 Spill 的 关键 代码 及 其 解析 。 

ShuffleExtemalSorter.scala 的 spill 的 源码 如 下 。 

1 


* 在 内 存 压力 下 ， 排 序 并 spil1 当前 记录 集 
#/ 


public long spil]l (long size, MemoryConsumer trigger) throws IOException { 
writeSortedFile (false); 
//writeSortedFile 不 会 释放 内 存 ， 因 此 需要 手动 释放 
final long spillSize = freeMemory(); 
inMemSorter .reset (); 


oawm 必 wm 
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To // 重 置 内 存 中 的 排序 器 指针 数组 ， 释 放 内 存 页 记录 。 否 则 ， 如 果 任 务 是 过 度 分 配 内 存 ， 则 不 
// 释 放 内 存 页 ， 我 们 可 能 无 法 获得 指针 数组 的 内 存 


EL taskContext.taskMetrics () .incMemoryBytesSpilled(spillSize); 
2 return spillSize; 
3 } 


在 Spill 的 时 候 就 会 调用 writeSortedFile 方法 (记录 和 集 处 理 完成 后 也 会 调用 ， 只 是 参数 不 
同 ) ， 之 后 便 释 放 占 用 的 全 部 内 存 。 对 应 writeSortedFile 方法 的 解析 ， 在 理解 了 记录 在 内 
存 页 中 存储 的 组 织 形式 后 ， 相 对 比较 好 理解 ， 因 此 在 此 仅 给 出 该 方法 的 注释 信息 ， 具 体 如 下 
所 示 。 
/** 
* 对 内 存 记 录 进 行 排序 ， 并 将 已 排序 的 记录 写 入 磁盘 文件 。 此 方法 不 释放 排序 数据 结构 


* @paramisLastFile 
* 


* 在 内 存 中 对 记录 进行 排序 ， 并 写 入 磁盘 的 一 个 文件 中 

* 该 方法 并 不 会 释放 排序 的 数据 结构 〈 即 需要 手动 释放 内 存 ) 

* 当 isLastFile 为 : 

* 工 。 true 时 ， 表 示 最 后 一 个 输出 文件 ， 此 时 写 的 数据 量 统计 在 Shuffle write 的 度 
* 量 信息 中 

10.  * 2. false 时， 则 同时 统计 在 Shuffle write 和 Shuffle spill 的 度量 信息 中 
一 下 

i private void writeSortedFile (boolean isLastFile) throws IOException { 


至 此 基本 上 解析 了 基于 Project Tungsten 内 存 模 型 的 整个 Shuffle 数据 处 理 过 程 。 下 面 简 
单 描述 一 下 内 存 中 的 排序 (对 应 ShuffleInMemorySorter 类 ) ， 排 序 时 主要 使 用 了 timSort 排 
序 算法 (封装 Java 上 的 实现 ) ， 所 采用 的 比较 器 为 SortComparator， 对 应 的 定义 如 下 所 示 。 
ShuffleInMemorySorter 的 SortComparator 的 源码 如 下 。 


omwawmiewn 


:I private static final class SortComparator implements Comparator 
<PackedRecordPointer> { 
@Override 
public int compare (PackedRecordPointer left, PackedRecordPointer right) { 
int leftId = left.getPartitionId(); 
int rightId = right.getPartitionId(); 
return leftId < rightIid 2? =1 : ‘(leftlId > zightId 2 1 : 0)s 
} 


从 源码 中 可 以 看 到 ， 比 较 时 ,使 用 的 是 PackedRecordPointer 对 象 中 的 分 区 ID, 所 以 在 基 
于 Tungsten 的 Shuffle 机 制 中 ， 记 录 是 按 分 区 ID 进行 排序 ， 并 没有 对 分 区 内 部 的 记录 进行 
排序 。 
基于 Project Tungsten 内 存 模 型 的 数据 处 理 ， 可 以 参考 本 节 的 源码 阅读 方式 ， 从 
MemoryConsumer 角度 出 发 (包含 那些 内 部 使 用 了 MemoryConsumer 的 类 ， 如 
UnsafeExternalSorter) ， 逐 个 理解 内 部 的 数据 结构 组 织 与 二 进 制 数据 处 理 等 方式 。 
外 说 明 : 通常 ， 代 码 中 有 open 方法 ， 也 会 同时 对 应 有 stop 方法 ， 就 像 资源 有 申请 ， 同 时 也 
会 有 释放 ， 或 者 元 数据 信息 有 创建 ， 也 会 有 销毁 一 样 。 这 些 配 对 的 处 理 方式 可 以 在 
阅读 源码 时 引起 注意 。 


co ~awm 必 wwN 
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28.3 缓存 感知 计算 


本 节 讲 解 缓存 感知 计算 ， 主 要 包括 : 缓存 感知 计算 的 解析 ; 缓存 感知 计算 类 的 解析 。 
28.3.1 概述 


在 解释 缓存 感知 计算 (Cache-aware computation) 前 ， 我 们 先 回顾 一 下 “内 存 计 算 ” 也 
是 Spark 广 为 业 内 知晓 的 优势 。 对 于 Spark 来 说 ， 它 可 以 更 好 地 利用 集群 中 的 内 存 资 源 ， 提 
供 比 基 于 磁盘 解决 方案 更 快 的 速度 。 然 而 ，Spark 同样 可 以 处 理 超过 内 存 大 小 的 数据 ， 自 动 
地 外 溢 到 磁盘 ， 并 执行 额外 的 操作 ， 如 排序 和 哈 希 。 

类 似 的 情况 ， 缓 存 感知 计算 通过 使 用 LLIL2/L3 CPU 缓存 来 提升 速度 ， 同 样 也 可 以 处 理 
超过 寄存 器 大 小 的 数据 。 在 给 用 户 Spark 应 用 程序 作 性 能 分 析 时 ， 我 们 发 现 大量 的 CPU 时 间 
因为 等 待 从 内 存 中 读 取 数据 而 浪费 。 在 Tungsten 项 目 中 , 我 们 设计 了 更 加 友好 的 缓存 算法 和 
数据 结构 ， 从 而 让 Spark 应 用 程序 可 以 花费 更 少 的 时 间 等 待 CPU 从 内 存 中 读 取 数 据 ， 也 给 有 
关 工 作 提供 了 更 多 的 计算 时 间 。 


28.3.2 ”缓存 感知 计算 的 解析 





我 们 看 一 个 对 记录 排序 的 例子 。 一 个 标准 的 排序 步骤 需要 为 记录 储存 一 组 指针 ， 并 使 用 
quicksort 互 换 指 针 ， 直 到 所 有 记录 被 排序 。 基 于 顺序 扫描 的 特性 ， 排 序 通常 能 获得 一 个 不 错 
的 缓存 命中 率 。 然 而 ， 排 序 一 组 指针 的 缓存 命中 率 却 很 低 ， 因 为 每 个 比较 运算 都 需要 对 两 个 
站 针 解 引用 ， 而 这 两 个 指针 对 应 的 却 是 内 存 中 两 个 随机 位 置 的 数据 。 

那么 ， 我 们 该 如 何 提高 排序 中 的 缓存 本 地 性 ?其 中 一 种 方法 就 是 通过 指针 顺序 地 储存 每 
个 记录 的 sort key。 举 一 个 例子 ， 如 果 sort key 是 一 个 64 位 的 整 型 ， 那 么 我 们 需要 在 指针 阵 
列 中 使 用 128 位 (64 位 指针 ，64 位 sort key) 来 存储 每 条 记录 。 这 种 途径 下 ， 每 个 quicksort 
对 比 操作 只 需要 线性 地 查找 每 对 pointer-key， 从 而 不 会 产生 任何 的 随机 扫描 。 图 28-10 可 以 
使 我 们 对 提高 缓存 本 地 性 的 方法 有 一 定 的 了 解 。 
































单纯 布局 
指针 of 一 | 键 值 
缓存 感知 布局 
键 指针 9] 值 

















图 28-10 ”缓存 感知 计算 示意 图 
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28.3.3 缓存 感知 计算 类 的 解析 


缓存 感知 计算 如 何 适 用 于 Spark? 大 多 数 分 布 式 数据 处 理 都 可 以 归结 为 多 个 操作 组 成 的 
一 个 小 列表 , 如 聚合 、 排 序 和 Join。 因此 , 通过 提升 这 些 操作 的 效率 , 可 以 从 整体 上 提升 Spark。 
我 们 已 经 为 排序 操作 建立 了 一 个 具有 缓存 感知 功能 的 排序 版 本 ， 它 比 老 版 本 的 速度 快 3 倍 。 
这 个 新 的 sort 将 会 被 应 用 到 sort-based Shuffle、high cardinality aggregations 和 sort-merge join 
operator。 将 来 所 有 Spark 上 的 低 等 级 算法 都 将 升级 为 Cache-aware， 从 而 让 所 有 应 用 程序 的 
效率 都 得 到 提高 一 一 从 机 器 学 习 到 SQL 。 


28.4 代码 生成 


本 节 讲 解 代 码 生 成 ， 主 要 包括 : 新 型 解析 器 的 解析 ; 代码 生成 的 解析 ; 表达 式 代码 生成 
的 应 用 解析 。 


28.4.1 概述 


Spark 为 SQL 和 DataFrames 中 的 表达 式 评估 引入 了 代码 生成 .表达 式 评估 是 在 如 age > 35 
&& age < 40 特定 记录 上 计算 表达 式 的 值 的 过 程 。 运 行 时 ，Spark 会 动态 生成 用 于 评估 这 些 表 
达 式 的 字 节 码 ， 而 不 是 为 每 行 代码 进行 交互 解释 运行 。 与 解释 器 相 比 ， 代 码 生成 减少 了 原始 
数据 类 型 的 打包 ， 更 重要 的 是 ， 避 免 了 昂贵 的 多 态 函 数 调 度 。 

代码 生成 可 以 将 许多 TPC-DS 查询 加 速 儿 乎 一 个 数量 级 。Spark 现在 正在 将 代码 生成 覆 
盖 扩 展 到 大 多 数 内 置 表达 式 。 此 外 ， 计 划 将 代码 生成 级 别 从 一 次 性 表达 式 评估 增加 到 向 量化 
表达 式 评 估 ， 利 用 JIT 的 功能 ， 在 现代 CPU 中 利用 更 好 的 指令 流水 线 ， 可 以 一 次 处 理 多 条 


记录 。 
28.4.2 ”新 型 解析 器 的 解析 


我 们 还 将 代码 生成 应 用 于 表达 式 评估 之 外 的 领域 ， 以 优化 内 部 组 件 的 CPU 效率 。Spark 
对 应 用 代码 生成 非常 兴奋 的 一 个 领域 是 加 快 数据 从 内 存 二 进 制 格式 转换 为 wire-protocol for 
shuffle。Shuffle 通常 是 数据 序列 化 ， 而 不 是 底层 网 络 的 瓶颈 。 通 过 代码 生成 ， 可 以 提高 序列 
化 的 吞吐 量 ， 从 而 提高 网 络 吞 吐 量 。 
图 28-11 比较 了 使 用 Kryo 序列 化 器 和 代码 生成 的 自 定义 序列 化 器 在 一 个 线程 中 运行 
Shuffle 操作 800 万 复杂 行 的 计算 性 能 。 代 码 生 成 的 序列 化 程序 利用 单个 Shuffle 中 的 所 有 行 
都 具有 相同 的 模式 的 特点 ， 并 为 此 生成 专门 的 代码 。 这 使 得 生成 的 版 本 比 Kryo 版 本 快 2 倍 
以 上 。 
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代码 生成 





0 50 100 150 200 
在 一 个 线程 中 运行 Shuffe 操 作 800 万 复杂 行 的 时 间 〈 秘 ) 


图 28-11 代码 生成 性 能 比较 图 


28.4.3 ”代码 生成 的 解析 


在 深入 介绍 whole-Stage code generation 前 ， 先 回顾 一 下 现在 的 Spark( 以 及 大 多 数 数据 
库 系统 ) 是 如 何 运 行 的 。 首 先 看 一 下 图 28-12。 扫 描 一 个 表 ， 然 后 计算 出 满足 给 定 条 件 属性 
值 的 总 行 数 。 


Agereeate 
| 


select count(*) from store_sales Project 
where ss_item_5k=1000 1 
Filter 


Scan 


图 28-12 查询 表达 式 示意 图 


为 了 计算 这 个 查询 ， 旧 版 本 的 Spark(1.x) 会 利用 基于 迭代 模型 的 经 典 查 询 评估 策略 〈 通 
常 被 称 为 Volcano model) 。 在 这 个 模型 中 ， 一 个 查询 由 多 个 算 子 (operators) 组 成 ， 每 个 算 
子 都 提供 了 nextO 接 口 ， 该 接口 每 次 只 返回 一 个 元 组 〈tuple) 给 嵌 套 树 中 的 下 一 个 算 子 。 例 
如 ， 上 面 查询 中 的 Filter 算 子 大 致 可 以 翻译 成 下 面 的 代码 。 


1. class Filter(child: Operator, predicate: (Row => Boolean) ) 
2. extends Operator { 

3. def next(): Row = { 

4. var current = child.next() 

5. while (current == null || predicate(current)) { 

6. current = child.next() 

7. 1 

8. return current 

9. } 

:1 2 


让 每 个 算 子 实现 迭代 器 接口 允许 查询 执行 引擎 来 优雅 地 组 合 任意 的 算 子 ， 而 不 必 担心 每 
个 算 子 提供 的 数据 类 型 。 结 果 Volcano 模型 在 过 去 的 20 年 间 变 成 数据 库 系 统 的 标准 ， 这 个 也 
是 Spark 使 用 的 架构 。 

如 果 给 一 个 新 大 学 生 10min 的 时 间 使 用 Java 来 实现 上 面 的 查询 , 他 很 可 能 会 想 出 一 段 迭 
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代 代 码 来 循环 遍历 输入 ， 判 断 条 件 并 计算 行 数 ， 如 下 所 示 : 


var count = 0 
for (ss item sk in store sales) { 
if (ss item sk == 1000) { 
Count += 1 


ONOoODP 


do) 


上 面 的 代码 仅仅 是 专门 解决 一 个 给 定 的 查询 ， 而 且 很 明显 不 能 和 其 他 算 子 组 合 。 但 是 ， 
这 两 种 实现 (Volcano 与 手写 代码 ) 方式 在 性 能 上 有 什么 重要 区 别 呢 ? 一 方面 ，Spark 和 大 多 
数 关系 型 数据 库 选择 这 种 可 以 对 不 同 算 子 进行 组 合 的 结构 ; 另 一 方面 ， 我 们 有 一 个 由 新 手 在 
10min 内 编写 的 程序 。 我 们 运行 了 一 个 简单 的 基准 测试 ， 对 比 了 大 学 新 生 手 写 版 的 程序 和 
Spark 版 的 程序 在 使 用 单个 线程 的 情况 下 运行 上 面 同一 份 查询 ， 并 且 这 些 数据 存储 在 磁盘 上 ， 
格式 为 Parquet。 它 们 之 间 的 对 比如 图 28-13 所 示 。 


13.95 million 
rows/sec 


Volcano 


college 
freshman 


125 million 
rows/sec 





High throughput 
图 28-13 ”代码 运行 对 比 图 


从 图 28-13 可 以 看 到 , 新 大 学 生 手 写 版 本 的 程序 要 比 Volcano 模式 的 程序 快 一 个 数量 级 ! 
因为 6 行 的 Java 代码 是 被 优化 过 的 ， 其 原因 如 下 。 

(1) 没有 虚 函 数 调 用 : 在 Volcano 模型 中 , 处 理 一 个 元 组 (tuple) 最 少 需要 调用 一 次 next() 
函数 。 这 些 函 数 的 调用 是 由 编译 器 通过 虚 函 数 调度 (通过 vtable) 实现 的 ， 而 手写 版 本 的 代 
码 没 有 一 个 函数 调用 。 虽 然 虚 函数 调度 是 现代 计算 机 体系 结构 中 的 重点 优化 部 分 ， 它 仍然 需 
要 消耗 很 多 CPU 指令 而 且 相 当 慢 ， 特 别 是 调度 数 达 十 亿 次 。 

(2) 内 存 和 CPU 寄存 器 中 的 临时 数据 : 在 Volcano 模型 中 ， 每 次 一 个 算 子 给 另外 一 个 算 
子 传递 元 组 的 时 候 ， 都 需要 将 这 个 元 组 存放 在 内 存 中 ; 而 在 手写 版 本 的 代码 中 ， 编 译 器 (这 
个 例子 中 是 JVM JIT) 实际 上 是 将 临时 数据 存放 在 CPU 寄存 器 中 。 访问 内 存 中 的 数据 需要 的 
CPU 时 间 比 直接 访问 寄存 器 中 的 数据 要 大 一 个 数量 级 ! 

(3) 循环 展开 (Loop unrolling) 和 SIMD: 运行 简单 的 循环 时 ， 现 代 编 译 器 和 CPU 的 效 
率 高 得 令 人 难以 置信 。 编译 器 会 自动 展开 简单 的 循环 , 甚至 在 每 个 CPU 指令 中 产生 SIMD 指 
令 来 处 理 多 个 元 组 。CPU 的 特性 ， 如 管道 (pipelining) 、 预 取 (prefetching) 以 及 指令 重 排 
序 (instruction reordering) 使 得 运行 简单 的 循环 非常 高 效 。 然 而 ， 这 些 编译 器 和 CPU 对 复杂 
函数 调用 的 优化 极 少 ， 而 这 些 函数 正 是 Volcano 模型 依赖 的 。 

这 里 的 关键 点 是 手写 版 本 代码 的 编写 正 对 上 面 的 查询 ， 所 以 它 充分 利用 到 已 知 的 所 有 信 
息 ， 导 致 消除 了 虚 函 数 的 调用 ， 将 临时 数据 存放 在 CPU 寄存 器 中 ,并且 可 以 通过 底层 硬件 进 
行 优化 。 
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28.4.4 ”表达 式 代码 生成 的 应 用 解析 


未 来 整个 阶段 的 代码 生成 : 从 上 述 观察 中 ， 我 们 的 下 一 步 是 探索 在 运行 时 自动 生成 这 个 
手写 代码 的 可 能 性 ， 我 们 称 之 为 “全 阶段 代码 生成 ”。 这 个 想法 的 灵感 来 自 于 托马斯 。 诺 依 
曼 的 VLDB 2011 的 论文 Bfficiently Compiling Efficient Query Plans for Modern Hardware。 

Spark 的 目标 是 利用 整个 阶段 的 代码 生成 ， 引擎 可 以 实现 手写 代码 的 性 能 ， 同 时 提供 通 
用 引擎 的 功能 。 运 行 时 ， 这 些 运算 符 不 是 依赖 运算 符 来 处 理 数据 ， 而 是 一 起 在 运行 时 生成 代 
码 ， 并 将 所 有 的 查询 片段 组 成 到 单个 函数 中 ， 仅 需要 运行 生成 的 代码 。 

例如 ， 在 上 一 节 的 查询 中 ， 整 个 查询 是 一 个 单一 的 阶段 ， 而 Spark 将 生成 图 28-14 所 示 
的 JVM 字 节 码 ( 以 Java 代码 的 形式 显示 ) 。 更 复杂 的 查询 将 导致 多 个 阶段 , 从 而 导致 由 Spark 
生成 多 个 不 同 的 功能 。 














long count = 9; 
for (ss_item sk in store_sales) { 
PR if (ss_item sk == 1969) { 
t = 人 > count += 1; 
} 


if 


图 28-14 ”Java 代码 图 


全 阶段 代码 生成 模型 : explain0 表 达 式 中 的 函数 扩展 到 全 阶段 代码 生成 。 在 输出 的 结果 

里 ， 当 算 子 前 面 有 一 个 * 时 ， 全 阶段 代码 生成 被 启用 。 在 以 下 情况 下 ，Range、Filter 和 两 个 
Aggregates 算 子 都 运行 全 阶段 代码 生成 。 但 是 ，Exchange 算 子 并 没有 实现 整 段 代 码 生成 ， 因 

spark.range (1000) .filter ("id > 100") .selectExpr("sum(id)") .explain() 
== Physical Plan == 
*Aggregate (functions=[sum(id#201L)]) 
+- Exchange SinglePartition, None 

+- *Aggregate (functions=[sum(id#201L)]) 


+- *Filter (id#201L > 100) 
+- *Range 0, 1, 3, 1000, [iqd#201L] 


cm 心情 


已 经 关注 Spark 发 展 的 人 可 能 会 问 下 面 的 问题 : Apache Spark 1.1 的 代码 生成 和 新 的 代码 
生成 有 何 区 别 ? 过 去 与 其 他 MPP 查询 引擎 类 似 ，Spark 只 将 代码 生成 应 用 于 表达 式 求 值 ， 并 
限于 少量 运算 符 〈 如 Project、Filter) 。 也 就 是 说 ， 过 去 的 代码 生成 只 是 加 快 了 诸如 “1 +a” 
的 表达 式 的 评估 ， 而 今天 的 全 阶段 代码 生成 实际 上 是 为 整个 查询 计划 生成 代码 。 

矢量 (Vectorization) : 整个 阶段 的 代码 生成 技术 特别 适用 于 对 大 型 数据 集 执 行 简单 、 可 
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预测 的 查询 的 大 量 操作 。 然 而 ， 存 在 生成 代码 ， 以 将 整个 查询 融合 为 单个 功能 是 不 可 行 的 情 
况 。 操 作 可 能 很 复杂 〈 如 CSV 解析 或 拼接 解码 ) ， 或 者 可 能 是 与 第 三 方 组 件 集成 ， 无 法 将 其 
代码 集成 到 生成 的 代码 中 例如 ， 从 调用 到 Python /R 将 计算 卸载 到 GPU) 。 

为 了 提高 这 些 情 况 下 的 性 能 ， 我 们 采用 了 另 一 种 称 为 “向 量化 ”的 技术 。 引 擎 一 次 只 能 
处 理 一 行 数据 ， 引 擎 会 以 多 个 列 的 格式 将 多 个 行进 行 批 处 理 ， 每 个 操作 符 都 使 用 简单 的 循环 
来 迭代 批量 内 的 数据 。 每 次 调用 next0 函 数 ，next0 将 返回 一 批 元 组 ， 以 分 挫 虚 拟 功能 调度 的 
成 本 。 这 些 简单 的 循环 还 将 使 编译 器 和 CPU 更 有 效 地 执行 。 

例如 ， 对 于 具有 3 列 〈id，name，score) 的 表 ， 以 行 、 列 为 格式 的 内 存 布局 如 图 28-15 
所 示 。 


Row Format Column Format 
1 john 4.1 


mile 3 john mile 





sally 6.4 41 3.5 


图 28-15 ”以 行 、 列 为 格式 的 内 存 布 局 


行 和 列 格式 的 内 存 布局 : 如 MonetDB 和 C-Store 的 列 状 数 据 库 系 统 的 处 理 方式 将 会 实现 
前 面 提 到 的 三 点 中 的 两 点 : 《没有 虚拟 功能 调度 和 自动 循环 展开 / SIMD〉。 但 是 ， 它 仍然 需 
要 将 中 间 数 据 放 入 内 存 中 ， 而 不 是 将 它们 保留 在 CPU 寄存 器 中 。 因 此 ， 仅 当 不 可 能 进行 全 阶 
段 代码 生成 时 ， 才 使 用 向 量化 。 

例如 ， 我 们 已 经 实现 了 一 个 新 的 矢量 化 的 Parquet 读 取 器 ， 它 在 列 批量 中 进行 解压 缩 和 
解码 。 当 解码 整数 列 〈 在 磁盘 上 ) 时 ， 这 个 新 的 阅读 器 比 非 向 量化 的 读 取 器 大 约 快 9 倍 ， 如 
图 28-16 所 示 。 


Parquet 11 million 

9 rows/sec 
Parquey 92 million 
vectorized rows/sec 





图 28-16 矢量 化 的 Parquet 示意 图 


将 来 ， 我 们 计划 在 更 多 的 代码 路 径 中 使 用 向 量化 ， 如 Python /R 中 的 UDF 支持 。 

性 能 基准 : 我 们 测量 了 在 Apache Spark 1.6 与 Apache Spark 2.0 中 的 一 个 核 上 处 理 一 行 的 
操作 时 间 (单位 是 ns)， 表 28-1 描述 了 新 的 Tungsten engine 的 性 能 提升 。Spark 1.6 提供 代 
码 生 成 技术 ， 也 在 当今 一 些 商 业 数 据 库 中 使 用 。 
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每 行 成 本 〈 单 位 为 ms) 见 表 28-1。 


表 28-1 Tungsten engine 的 性 能 





























成 本 Spark 1.6/ns Spark 2.0/ns 
filter 15 了 
sum W/o group 14 0.9 
sum W/ group 79 10.7 
hash join 115 4.0 
sort (8-bit entropy) 620 $3 
sort (64-bit entropy) 620 40 
sort-merge join 750 700 
Parquet decoding (single int column) 120 13 


最 常用 的 运算 符 ( 如 filter、aggregate 以 及 Hash Join) 实现 了 整个 阶段 的 代码 生成 。 许 
多 核心 算 子 在 整个 阶段 的 代码 生成 中 都 快 了 一 个 数量 级 。 然 而 ， 如 sort-merge join 的 一 些 运 
算 符 本 质 上 较 慢 ， 并 且 难 以 优化 。 我 们 在 单个 机 器 上 执行 10 亿 条 记录 的 聚合 和 连接 。 在 
Databricks 平台 (使 用 英特尔 Haswell 处 理 器 ， 包 含 3 个 内 核 ) 以 及 Macbook Pro 上 对 10 亿 
个 元 组 执行 Hash Join 连接 操作 需要 不 到 1s 的 时 间 。 

Spark 的 新 引擎 如 何在 端 到 端 进行 查询 工作 ? 除了 整个 阶段 的 代码 生成 和 向 量化 外 ， 还 
进行 了 大 量 的 工作 ， 改 进 了 Catalyst 优化 器 ， 用 于 一 般 查 询 优 化 ， 如 nullability propagation。 
图 28-17 为 使 用 TPC-DS 查询 进行 了 一 些 初 步 分 析 来 比较 Spark 1.6 和 Spark 2.0。 


Preliminary TPC-DS Spark 2.0 vs 1.6-Lower is Better 
600 


mTime (1.6) 
500 


mTime (2.0) 
400 
200 
100 | 
Fe 由 上 Lh Ny 上 | | | 
mo NDP 人 -Sb 区 Cpe 
Y 人 ee S 


图 28-17 TPC-DS 查询 比较 


Runtime(secords) 
加 
s 


这 是 否 意 味 着 一 旦 升级 到 Spark 2.0， 计 算 就 会 比 之 前 快 10 倍 ? 不 是 。 虽然 我 们 相信 新 
的 Tungsten 引擎 在 数据 处 理 中 实现 了 性 能 工程 的 最 佳 架 构 , 但 并 不 是 所 有 的 工作 负载 都 能 受 
益 于 同样 的 程度 。 例 如 , 字符 串 的 可 变 长 度数 据 类 型 操作 就 很 昂贵 ， 并且 一 些 工 作 负载 受 IO 
吞吐 量 、 元 数据 操作 的 其 他 因素 限制 之 前 受 CPU 效率 限制 的 工作 负载 将 观察 到 最 大 的 收益 ， 
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并 转向 更 多 的 IO 绑 定 ， 而 之 前 IO 绑 定 的 工作 负载 不 太 可 能 获得 收益 。 

第 二 代 钢 执行 引擎 称 为 全 阶段 代码 生成 技术 ， 引 擎 将 实现 : 

(1) 消除 虚拟 功能 调度 。 

(2) 将 中 间 数 据 从 存储 器 移动 到 CPU 寄存 器 。 

(3) 利用 现代 CPU 功能 循环 展开 和 使 用 SIMD。 通 过 vectorization 技术 ， 引 擎 将 加 快 对 
复杂 操作 代码 生成 运行 的 速度 。 对 于 许多 数据 处 理 的 核心 算 子 ， 新 引擎 的 运行 速度 要 提升 一 
个 数量 级 。 未 来 ， 考 虑 到 执行 引擎 的 效率 ， 我 们 的 大 部 分 性 能 工作 将 转向 优化 IO 效率 和 更 
好 地 查询 规划 。 





28.5 本 章 总结 





本 章 内 容 主旨 在 于 抛砖引玉 , 在 结合 Databricks 公司 发 布 的 博文 和 Spark issues 及 其 相关 
的 设计 文档 的 基础 上 ， 从 源码 角度 对 目前 已 经 实现 的 部 分 Project Tungsten 进行 解析 ， 主 要 内 
容 包含 Project Tungsten 的 内 存 模型 ， 以 及 在 该 内 存 模型 基础 上 ， 以 Shuffle 写 数 据 的 过 程 为 
例 , 详细 解析 在 Project Tungsten 的 内 存 模 型 上 对 数据 结构 进行 组 织 以 及 基于 二 进 制 处 理 数据 
等 方面 的 内 容 。 同 时 ， 本 章 也 讲解 了 缓存 感知 计算 及 代码 生成 的 相关 内 容 。 
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本 章 主 要 讲解 如 下 几 项 内 容 。 

Shuffle 对 性 能 消耗 的 原理 详解 。 

Spark.Shuffle.manager 参数 调 优 原理 及 实践 。 
Spark.Shuffle.blockTransferService 参数 调 优 原理 及 实践 。 
Spark.Shuffle.compress 参数 调 优 原理 及 最 佳 实践 。 
Spark.io.compression.codec 参数 调 优 原理 及 实践 。 
Spark.Shuffle.consolidateFiles 参数 调 优 原理 及 实践 。 
Spark.Shuffle.file.buffer 参数 调 优 原理 及 实践 。 
Spark.Shuffle.io.maxRetries 参数 调 优 原理 及 实践 。 
Spark.Shuffle io retryWait 参数 调 优 原 理 及 实践 。 
Spark.Shuffle.io numConnectionsPerPeer 参数 调 优 原理 及 实践 。 
Spark.reducer.maxSizeInFlight 参数 调 优 原理 及 实践 。 
Spark.Shuffle.io.preferDirectBufs 参数 调 优 原理 及 实践 。 
Spark.Shuffle.memoryFraction 参数 调 优 原理 及 实践 。 
Spark.Shuffle.service.enabled 参数 调 优 原理 及 实践 。 
Spark.Shuffle.service.port 参数 调 优 原理 及 实践 。 
Spark.Shuffle.sort.bypassMergeThreshold 参数 调 优 原理 及 实践 。 
Spark.Shuffle.spill 参数 调 优 原理 及 实践 。 
Spark.Shuffle.spill.compress 参数 调 优 原理 及 实践 。 
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29.1 Shuffle 对 性 能 消耗 的 原理 详解 


在 分 布 式 系统 中 ， 数 据 分 布 在 不 同 的 节点 上 ， 每 个 节点 计算 一 部 分 数据 ， 如 果 不 对 各 个 
节点 上 独立 的 部 分 进行 汇聚 ， 计 算 就 得 不 到 最 终 的 结果 。 我 们 需要 利用 分 布 式 来 发 挥 Spark 
本 身 并 行 计算 的 能 力 ， 而 后 续 又 需要 计算 各 节点 上 最 终 的 结果 ， 所 以 需要 把 数据 汇聚 集中 ， 
这 就 会 导致 Shuffle， 这 也 是 为 什么 Shuffle 是 分 布 式 不 可 避免 的 。 因 为 Shuffle 的 过 程 中 会 
产生 大 量 的 磁盘 IO、 网 络 WO， 以 及 压缩 、 解 压缩 、 序 列 化 和 反 序 列 化 的 操作 ， 这 一 系列 操 
作对 性 能 都 是 一 个 很 大 的 负担 。 

调 优 是 一 个 动态 的 过 程 , 需要 根据 业务 数据 的 特性 和 硬件 设备 的 条 件 , 经 过 不 断 地 测试 ， 
才能 达到 一 个 最 优化 的 水 平 。 下 面 是 一 些 Spark 参数 的 介绍 ， 以 及 一 些 调 优 的 最 佳 实战 。 参 
数 调 优 是 其 中 一 种 减少 Shuffle 带 来 的 性 能 负担 的 方法 。 

Spark 官网 https://spark.apache.org/docs/latest/configuration.html 提供 的 Spark 集群 Shuffle 
行为 属性 配置 参数 见 表 29-1。 
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表 29-1 Spark 集 群 Shuffle 行 为 属性 配置 参数 表 


舍 _- 文 





从 每 个 reduce 任务 同时 抓 取 map 输出 数据 的 
最 大 大 小 。 由 于 每 个 输出 数据 需要 创建 一 个 组 
冲 区 来 接收 , 是 每 个 reduce 任务 固定 的 内 存 开 
销 ， 因 此 须 设置 一 个 较 小 的 值 ， 除 非 有 大 量 的 
内 存 











属性 参数 
spark.reducer.maxSizeInFlight 
spark.reducer.maxReqsInFlight Int.MaxValue 
spark.shuffle.compress 
spark.shuffle.file.buffer E> 
spark.shuffle.io.maxRetries 3 


2KB 
spark.shuffle.io.preferDirectBufs 
5s 


spark.shuffle.io.numConnectionsPerPeer 卫 晤 


spark.shuffle.io.retryWait 


spark.shuffle.service.enabled 


此 配置 限制 了 在 任何 给 定点 获取 块 的 远程 请 
求 数 。 当 集群 中 的 主机 数量 增加 时 ,可 能 会 导 
致 一 个 或 多 个 节点 的 入 站 连接 数量 非常 多 , 导 
致 工作 负载 失败 。 通 过 限制 获取 请 求 的 数量 ， 
可 以 减轻 这 种 情况 

是 否 压缩 map 输出 文件 通常 是 一 个 好 主意 , 压 
缩 时 使 用 spark.io.compression.codec 

每 个 Shuffle 文件 输出 流 的 内 存 缓冲 区 大 小 。 
这 些 缓冲 区 减少 了 创建 中 间 Shuffle 文件 时 进 
行 的 磁盘 查找 和 系统 调用 次 数 。 

( 仅 限 Netty) 如 果 将 其 设置 为 非 零 值 ， 在 IO 
相关 异常 导致 获取 数据 失败 ， 将 自动 重 试 。 重 
试 将 有 助 于 保障 长 时 间 GC 停顿 或 瞬时 网 络 连 
接 问 题 情 况 下 Shuffle 的 稳定 性 

( 仅 Netty) 重新 使 用 主机 之 间 的 连接 数 ， 以 减 
少 大 型 集群 的 连接 建立 。 对 于 具有 多 个 硬盘 和 
少量 主机 的 集群 ， 这 可 能 导致 并 发 性 不 足 ， 以 
使 所 有 磁盘 饱和 ， 因 此 用 户 可 考虑 增加 此 值 
( 仅 Netty》 非 堆 缓冲 区 用 于 在 Shuffle 和 缓存 
块 传输 过 程 中 减少 垃圾 回收 。 对 于 非 堆 内 存 严 
格 限制 的 环境 ,用户 可 能 希望 将 其 关闭 ， 以 强 
制 Netty 的 所 有 分 配 都 在 堆 上 

( 仅 Netty) 获取 重 试 之 间 等 待 多 长 时 间 。 默 认 
情况 下 ， 重 试 引起 的 最 大 延迟 时 间 为 15s， 计 
算 方式 为 maxRetries xretryWait 

启用 外 部 Shuffle 服务 。 此 服务 保留 由 
Executors 写 入 的 Shuffle 文件 ， 以 便 Executors 
可 以 安全 地 删除 。 如 果 spark.dynamic 
Allocation.enabled 设置 为 tue， 则 必须 启用 ， 
必须 设置 外 部 Shuffle 服务 才能 启用 它 

外 部 Shuffle 服务 运行 的 端口 








spark.shuffle.service.port 7337 
spark.shuffle.service.index.cache.entries | 1024 


在 Shuffle 服务 的 索引 缓存 中 的 最 大 条 目 数 
(高 级 ) 在 基于 排序 的 Shuffle 管理 器 中 ， 如 果 
没有 map 侧 聚 合 , 则 避免 合并 排序 数据 , 可 以 
减少 分 区 








spark.shuffle.sort.bypassMergeThreshold | 200 
spark.shuffle.spill.compress true 


是 否 压 缩 在 Shuffle 期 间 溢出 的 数据 。 上 压缩 将 
使 用 spark.io.compression.codec 
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当 压 缩 再 ghlyCompressedMapStatus 中 的 
Shuffle 块 的 大 小 时 ,如 果 超 过 此 配置 , 我们 将 
准确 记录 大 小 。 这 有 助 于 通过 避免 在 Shuffle 
获取 块 时 低估 Shuffle 块 的 大 小 来 防止 OOM 
启用 IO 加 密 。 目 前 支持 除 Mesos 外 的 所 有 模 
式 。 建 议 在 使 用 此 功能 时 启用 RPC 加 密 

IO 加 密 密 钥 大 小 以 位 为 单位 。 支 持 的 值 为 
128 192 和 256 

生成 VO 加 密 密 钥 时 使 用 的 算法 。 支 持 的 算法 
spark.io.encryption keygen.algorithm HmacSHA1 在 Java 加 密 体系 结构 标准 算法 名 称 文档 的 
KeyGenerator 部 分 进行 了 描述 


spark.shuffle.accurateBlockThreshold 100x1024x1024 





spark.io.encryption.enabled 





spark.io.encryption.keySizeBits 








29.2 ”Spark.Shuffle.manager 参数 调 优 原理 及 实践 


Spark.Shuffle.manager 默认 值 : Sort。 

参数 说 明 : 该 参数 用 于 设置 ShuffleManager 的 类 型 Spark 1.5 以 后 , 有 3 个 可 选项 : Hash、 
Sort 和 Tungsten-Sort。HashShuffleManager 是 Spark 1.2 以 前 的 默认 选项 , 但 是 Spark 1.2 以 及 
之 后 的 版 本 默认 都 是 SortShuffleManager。Tungsten-Sort 与 Sort 类 似 ， 但 是 使 用 了 Tungsten 
计划 中 的 堆 外 内 存 管 理 机 制 ， 内 存 使 用 效率 更 高 。 

调 优 建议 : 由 于 SortShuffleManager 默认 会 对 数据 进行 排序 ， 因 此 如 果 你 的 业务 逻辑 中 
需要 该 排序 机 制 ， 则 使 用 默认 的 SortShuffleManager 就 可 以 ; 而 如 果 你 的 业务 罗 辑 不 需要 对 
数据 进行 排序 ， 那 么 建议 参考 后 面 的 儿 个 参数 调 优 ， 通 过 bypass 机 制 或 优化 的 
HashShuffleManager 来 避免 排序 操作 ， 同 时 提供 较 好 的 磁盘 读 写 性 能 。 这 里 要 注意 的 是 ， 
Tungsten-Sort 要 慎 用 ， 因 为 之 前 发 现 了 一 些 相 应 的 Bug。 

Spark.Shuffle.manager 参数 用 于 设置 ShuffleManager 的 类 型 ,Spark 2.0 以 后 ,只 有 Sort 和 
Tungsten-Sort 两 个 可 选项 ， 从 源码 中 查看 ， 以 前 的 Hash-Based Shuffle 算法 在 新 版 本 中 已 经 

Spark 2.1.1 版 本 的 SparkEnv.scala 的 源码 如 下 。 


本 val shortShuffleMgrNames = Map( 

湖 加 "sort" -> classOf[org.apache.spark.Shuffle.sort.SortShuffleManager]. 
getName, 

全 "tungsten-sort" -> classOf [org.apache.spark.Shuffle.sort.SortSshuffle 
Manager] .getName) 

4. val ShuffleMgrName = conf.get ("spark.Shuffle.manager", "sort") 

六 训 val ShuffleMgrClass = shortShuffleMgrNames .getOrElse (ShuffleMgrName. 

toLowerCase, ShuffleMgrName) 
6s val ShuffleManager = instantiateClass[ShuffleManager] (ShuffleMgrClass) 


Spark 2.2.0 版 本 的 SparkEnv.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 上 段 代 
码 中 的 第 5 行 代 码 ShuffleMgrName.toLowerCase 方法 新 增 传 入 参数 LocaleROOT 。 
Locale ROOT 用 于 表示 根 语言 环境 的 常量 。 
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ee 

2. val shuffleMgrClass = 

3. shortShuffleMgrNames .getOrElse (ShuffleMgrName .toLowerCase (Locale. 
ROOT), shuffleMgrName) 

A 


Spark 2.0 版 本 默认 是 SortShuffleManager 。 Tungsten-Sort 与 Sort 类 似 ， 
SortShuffleManager 默认 对 数据 进行 排序 ,因此 如 果 用 户 的 业务 逻辑 中 需要 该 排序 机 制 , 则 使 
用 默认 的 SortShuffleManager ; 如 果 需 要 使 用 Tungsten-Sort, 则 把 Spark.Shuffle manager 设 
置 成 Tungsten-Sort。 





29.3 Spark.Shuffle.blockTransferService 参数 调 优 原理 及 实践 


Spark.Shuffle .blockTransferService 参数 用 来 实现 在 Executor 之 间 传 递 Shuffle 缓存 块 。 有 
Netty 和 Nio 两 种 可 用 的 实现 。 基 于 Netty 的 块 传递 在 具有 相同 效率 的 情况 下 更 简单 ， 默 认 值 
是 Netty。 

在 Spark 1.2.0 中 , 这 个 配置 的 默认 值 是 Netty, 而 之 前 是 Nio。Netty 用 于 在 各 个 Executor 
之 间 传 输 Shuffle 数据 。Netty 的 实现 更 加 简洁 ， 但 实际 上 用 户 不 用 太 关 心 这 个 选项 。 除 非 有 
特殊 的 需求 ， 和 否则 采用 默认 配置 就 可 以 。 


29.4 Spark.Shuffle.compress 参数 调 优 原理 及 实践 


Spark.Shuffle.compress 参数 是 判断 是 否 对 mapper 端的 聚合 输出 进行 压缩 ， 默 认 是 true， 
表示 在 每 个 Shuffle 的 过 程 中 都 会 对 mapper 端的 输出 进行 压缩 。 例 如 ， 说 几 千 台 或 者 上 万 台 
的 机 器 进行 汇聚 计算 ， 数 据 量 和 网 络 传输 会 非常 大 ， 这 会 造成 大 量 内 存 消耗 、 磁 盘 IO 消耗 
和 网 络 IO 消耗 。 此 时 如 果 在 Mapper 端 进行 了 压缩 ， 就 会 减少 Shuffle 过 程 中 下 一 个 Stage 
向 上 一 个 Stage 抓 数据 的 网 络 开销 ， 大 大 地 减轻 Shuffle 的 压力 。 

UnsafeShuffleWriter.scala 的 mergeSpills 方法 的 源码 如 下 。 


了 Private long[] mergeSpills(SpillInfo[] spills, File outputFile) throws 
IOException { 

区 局 final boolean compressionEnabled = sparkConf.getBoolean ("spark.Shuffle. 
compress", true); 

3 final CompressionCodec compressionCodec = CompressionCodec$ .MODULES. 


createCodec (sparkConf); 


4 final boolean fastMergeEnabled = 

与 sparkConf .getBoolean ("spark.Shuffle.unsafe.fastMergeEnabled", true); 

6 final boolean fastMergeIsSupported = !compressionEnabled || 

CompressionCodec$ .MODULES .supportsConcatenationOfSerializedStreams 

(compressionCodec); 

35 final boolean encryptionEnabled = blockManager.serializerManager (). 
encryptionEnabled(); 

9 | 

TD if (spills.length == 0) { 

i new FileOutputSstream(outputFile) .close(); //Create an empty file 


9003.2 








了 2 return new long[Partitioner.numPartitions()]; 

ec } else if (spills.length == 1) { 

Ta // 这 里 ， 我 们 不 需要 执行 任何 度量 更 新 ， 因 为 写 入 这 个 字 节 ， 输 出 文件 将 被 计算 为 已 
// 写 入 的 shuffle 字 节 数 

5 Files.move(spills[0] .file, outputFile); 

16. return spills[0] .PartitionLengths; 

LT } else { 

办 final long[] PartitionLengths; 

全 


20. // 这 里 有 多 个 溢出 合并 ， 因 此 ， 对 于 Shuffle 写 入 计数 或 Shuffle 写 入 时 间 ， 这 些 溢出 文 
// 件 的 长 度 没有 被 计数 。 如 果 使 用 慢 合 并 路 径 , 最 终 输出 文件 的 大 小 不 一 定 等 于 溢出 文件 总 大 小 。 
// 为 了 防止 这 种 情况 发 生 ， 我 们 查看 输出 文件 的 实际 大 小 ， 在 计算 Shuffle 字 节 数 时 ， 人 允许 单 
// 个 合并 方法 报告 来 自 不 同 的 合并 后 的 I/O 时 间 。 

21. // 既 然 不 同 的 合并 策略 使 用 不 同 的 TVO 技术 ， 对 于 Shuffle 写 入 时 间 ， 我 们 在 合并 计算 I/0 
// 时 经 常 发 现在 ExternalSorter 外 部 排序 时 ，not bypassing merge-sort 是 一 致 的 


2 if (fastMergeEnabled && fastMergeIsSupported) { 
2 3 // 讨 缩 被 禁用 ， 或 者 我 们 使 用 支持 的 I/o 压缩 编 解 码 器 。 解 压缩 级 联 的 压缩 流 ， 这 
// 样 我 们 就 可 以 执行 快速 溢出 合并 ， 不 需要 体现 溢出 的 字 节 

之 上 所 if (transferToEnabled && !encryptionEnabled) { 

2 Logger.debug ("Using transferTo-based fast merge"); 

26. PartitionLengths = mergeSpillsWithTransferTo (spills, outputFile); 

} else { 

ZOe Logger.debug ("Using fileStream-based fast merge"); 

295 PartitionLengths = mergeSpillsWithFileStream(spills, outputFile, 
null); 

30. } 

3 } else { 

S32 Logger.debug ("Using slow merge"); 

23 PartitionLengths = mergeSpillsWithFileStream(spills, outputFile, 

compressionCodec); 
34. | 
35e // 当 关闭 一 个 UnsafeShuffleExternalSorte 不 安全 的 外 部 排序 器 时 ， 其 已 溢出 


// 一 次 ， 但 数据 也 在 内 存 记录 中 ， 我 们 将 内 存 中 的 记录 写 入 一 个 文件 ， 但 不 计算 它 ， 最 后 
// 写 入 字 节 溢出 (被 视 为 Shuffle write 写 入 ) 。 合 并 的 需求 被 认为 是 Shuffle 写 入 ， 
// 但 这 将 导致 最 终 spillInfo 的 字 节 进行 双 倍 计数 


< 1 writeMetrics.decBytesWritten (spills[spills.length - 1].file.length()); 
i writeMetrics.incBytesWritten (outputFile.length()); 

号 BY return PartitionLengths; 

39. } 

40. } catch (IOException e) { 

A if (outputFile.exists() && !outputFile.delete()) { 

2 Logger .error ("Unable to delete output file {}", outputFile.getPath()); 
43. } 

44. throw e; 

45. } 

46. |} 


29.5 ”Spark.io.compression.codec 参数 调 优 原理 及 实践 


Spark.io.compression.codec 参数 用 来 压缩 内 部 数据 ， 如 RDD 分 区 、 广 播 变量 和 Shuffle 
输出 的 数据 等 ,所 采用 的 压缩 器 有 1z4、Lzf 和 Snappy 这 3 种 选择 ,默认 是 Snappy, 但 和 Snappy 
比较 ，Lzf 的 压缩 率 较 高 ， 故 在 有 大 量 Shuffle 的 情况 下 ， 使 用 Lzf 可 以 提高 Shuffle 性 能 ， 
进而 提高 程序 的 整体 效率 。 
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Spark 2.2 版 本 中 ， 默 认 的 压缩 方式 是 1z4。 
CompressionCodec.scala 的 源码 如 下 。 


中 private val configKey = "spark.io.compression.codec" 
ee 

3 private val shortCompressionCodecNames = Map( 

六 "1z4" -> classOf [LZ4CompressionCodec] .getName, 

5 "lzf" -> classOf [LZFCompressionCodec] .getName, 

6 "snappy" -> classOf[SnappyCompressionCodec] .getName) 
jE 


8 def getCodecName (conf: SparkConf): String = { 


conf.get (configKey, DEFAULT COMPRESSION CODEC) 
0< 于 
Le 


12. val FALLBACK COMPRESSION CODEC = "snappy" 
13. val DEFAULT COMPRESSION CODEC = "1z4" 
14. val ALL COMPRESSION CODECS = shortCompressionCodecNames.values.toSeq 


29.6 ”Spark.Shuffle.consolidateFiles 参数 调 优 原理 及 实践 


Spark.Shuffle.consolidateFiles 默认 值 : false。 

参数 说 明 : 如 果 使 用 soy dn 该 参数 有 效 。 如 果 设 置 为 tue， 那 么 就 会 开 
启 consolidate 机 制 ， 会 大 幅度 合并 Shuffle Write 的 输 ! 出 文件 。 在 Shuffle Read Task 数量 特别 
多 的 情况 下 ， 这 种 方法 可 以 极 大 地 减少 磁盘 IO 开销 ， 提 升 性 能 。 

调 优 建议 : 如 果 的 确 不 需要 SortShuffleManager 的 排序 机 制 , 那么 除了 使 用 bypass 机 制 |， 
还 可 以 尝试 将 Spark.shffle.manager 参数 手动 指定 为 哈 希 ， 使 用 HashShuffleManager 同时 开启 
consolidate 机 制 。 在 实践 中 尝试 过 ， 发 现 其 性 能 比 开 启 了 bypass 机 制 的 SortShuffleManager 
要 高 出 10%~30%。 

这 个 配置 参数 仅 适用 于 HashShuffleMananger 的 实现 ， 同 样 是 为 了 解决 生成 过 多 文件 的 
问题 ， 采 用 的 方式 是 在 不 同 批 次 运行 的 Map 任务 之 间 重 用 Shuffle 输出 文件 。 也 就 是 说 ， 合 
并 的 是 不 同 批 次 的 Map 任务 的 输出 数据 ， 但 是 每 个 Map 任务 需要 的 文件 还 是 取决 于 Reduce 
分 区 的 数量 。 因 此 ， 它 并 不 减少 同时 打开 的 输出 文件 的 数量 ， 对 内 存 使 用 量 的 减少 并 没有 帮 
助 。 只 是 HashShuffleManager 里 的 一 个 折 中 的 解决 方案 。 


名 说 明 : 在 Spark 2.0 版 本 中 已 没有 HashShuffleManager 方式 。 


29.7 ”Spark.Shuffle.file.buffer 参数 调 优 原理 及 实践 


在 ShuffleMapTask 端 通常 也 会 增 大 Map 任务 的 写 磁盘 的 缓 在， 默认 情况 下 是 32KB 。 

Spark.Shuffle filebuffer 默认 配置 是 32KB， 为 什么 默认 情况 下 这 么 小 呢 ? 考虑 在 最 小 的 
硬件 情况 下 都 把 它 部 署 成 功 。 

Spark.Shuffle.file.buffer 参数 用 于 设置 Shuffle Write Task 的 BufferedOutputStream 的 buffer 
缓冲 大 小 。 将 数据 写 到 磁盘 文件 之 前 ， 先 写 入 buffer 缓冲 中 ， 待 缓冲 写 满 之 后 ， 才 会 溢 写 到 
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磁盘 。 如 果 作业 可 用 的 内 存 资源 较为 充足 ， 则 可 以 适当 增加 这 个 参数 的 大 小 〈 如 64KB) ， 
从 而 减少 Shuffle Write 过 程 中 洲 写 磁盘 文件 的 次 数 ， 也 就 可 以 减少 磁盘 IO 次 数 ， 进 而 提升 
性 能 。 在 实践 中 发 现 ， 合 理 调节 该 参数 ， 性 能 会 有 1% 一 5% 的 提升 。 
Spark 2.2 版 本 中 ，spark.shuffle.file.buffer 的 默认 配置 是 32KB。 
ShuffleExtermalSorter.java 的 源码 如 下 。 


“096.2 


final class ShuffleExternalSorter extends MemoryConsumer { 


private static final Logger Logger = LoggerFactory.getLogger (Shuffle 
ExternalSorter.class); 


@VisibleForTesting 
static final int DISK WRITE BUFFER SIZE = 1024 * 1024; 


private final int numPartitions; 

private final TaskMemoryManager taskMemoryManager; 
private final BlockManager blockManager; 

private final TaskContext taskContext; 


private final ShuffleWriteMetrics writeMetrics; 
/** 


* 当 内 存 中 有 许多 元 素 ， 强 迫 数据 排序 时 溢出 到 磁盘 ， 默 认 值 大 小 是 
*1GB (1024X1024X1024) ， 指 针 数 组 最 大 值 是 8GB 
*/ 

private final long numElementsForSpillThreshold; 


/** 缓 冲 区 大 小 ， 洲 出 时 使 用 DiskBlockObjectWriter 写 入 */ 


private final int fileBufferSizeBytes; 


/** 
* 保 存 正在 排序 的 记录 的 内 存 页 。 页 列表 中 的 页 溢出 时 将 释放 内 存 ， 虽 然 原则 上 我 们 可 以 回 
* 收 这 些 页 面 溢出 ( 另 一 方面 ,保持 TaskMemoryManager 本 身 可 重用 的 页 面 池 ， 可 能 不 是 
* 必 要 的 ) 
*/ 

private final LinkedList<MemoryBlock> allocatedPages = new LinkedList<>(); 





下 


private final LinkedList<SpillInfo> spills = new LinkedList<>(); 


/** 排序 器 使 用 的 峰值 内 存单 位 为 字 节 */ 
private long peakMemoryUsedBytes; 


// 这 些 变量 在 溢出 后 重 置 

@Nullable private ShuffleInMemorySorter inMemSorter; 
@Nullable private MemoryBlock currentPage = null; 
private long pageCursor = -1; 


ShuffleExternalSorter( 
TaskMemoryManager memoryManager, 
BlockManager blockManager, 
TaskContext taskContext, 
int initialSize, 
int numPartitions， 

SparkConf conf, 

ShuffleWriteMetrics writeMetrics) { 
super (memoryManager, 

(int) Math.min (PackedRecordPointer.MAXIMUM PAGE SIZE BYTES, memoryManager. 
pageSizeBytes () ) ， 


第 29 章 Spark Shuffle 调 优 原理 及 实践 








稳定 性 。 


配 


sm 


memoryManager .getTungstenMemoryMode ()); 
this.taskMemoryManager = memoryManager; 
this.blockManager = blockManager; 
this.taskContext = taskContext; 
this.numPartitions = numPartitions; 
// 使 用 getsizeAsKb (不 是 字 节 ) ， 如 果 没 有 提供 单位 ， 则 保持 向 后 兼容 
this.fileBufferSizeBytes = (int) conf.getSizeAsKb("spark.shuffle. 
file-buffer”, 32k") * L024 
this.numElementsForSpillThreshold = 
conf.getLong ("spark.shuffle.spill.numElementsForceSpillThreshold", 
1024 * 1024 * 1024); 
this.writeMetrics = writeMetrics; 
this.inMemSorter = new ShuffleInMemorySorter( 
this, initialSize, conf.getBoolean("spark.shuffle.sort.useRadixSort", 
true)); 
this.peakMemoryUsedBytes = getMemoryUsage(); 


} 


29.8 Spark.Shuffle.io.maxRetries 参数 调 优 原理 及 实践 


Spark.Shuffle.io.maxRetries 默认 值 : 3。 

参数 说 明 : Shuffle Read Task 从 Shuffle Write Task 所 在 节点 拉 取 属于 自己 的 数据 时 ， 如 
果 因 为 网 络 异常 导致 拉 取 失败 , 是 会 自动 进行 重 试 的 。 该 参数 就 代表 了 可 以 重 试 的 最 大 次 数 。 
如 果 在 指定 次 数 内 拉 取 还 是 没有 成 功 ， 就 可 能 导致 作业 执行 失败 。 

调 优 建议 : 对 于 那些 包含 了 特别 耗 时 的 Shuffle 操作 的 作业 ， 建 议 增 加 重 试 最 大 次 数 (如 
60 次 ) ， 以 避免 由 于 JVM 的 Full GC 或 者 网 络 不 稳定 等 因素 导致 的 数据 拉 取 失败 。 在 实践 中 
发 现 ， 对 于 针对 超大 数据 量 〈 数 十 亿 至 上 百 亿 ) 的 Shuffle 过 程 ， 调 节 该 参数 可 以 大 幅度 提升 


在 Spark 2.2 版 本 中 ，io.maxRetries 默认 重 试 次 数 是 3 次 。 调 整 获 取 Shuffle 数据 的 重 试 
次 数 ， 通 常 建议 增 大 重 试 次 数 到 8 一 10 次 。 








TransportConfjava 的 源码 如 下 。 


public TransportConf (String module, ConfigProvider conf) { 


SPARK NETWORK_ IO MAXRETRIES KEY = getConfKey ("io.maxRetries"); 
SPARK_ NETWORK _ IO RETRYWAIT KEY = getConfKey("io.retryWait"); 


KEY, 3); } 


29.9 ”Spark.Shuffle.io.retryWait 参数 调 优 原理 及 实践 


Spark.Shuffle.io.retryWait 默认 值 : 5s。 
参数 说 明 : 代表 了 每 次 重 试 拉 取 数 据 的 等 竺 间隔， 默认 是 5s， 在 Spark-conf 配置 文件 中 


上 且 .o 
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调 优 建议 : 默认 情况 下 ， 重 试 3 次 ， 每 次 重 试 的 间隔 时 间 为 5s， 重 试 引 起 的 最 大 延迟 为 
15s， 以 maxRetriesXretryWait 计算 。 建 议 加 大 间隔 时 长 〈 如 60s) ， 以 增加 Shuffle 操作 的 稳 
TransportConfjava 的 源码 如 下 。 











二 


1. public TransportConf (String module, ConfigProvider conf) { 


< 河 SPARK NETWORK IO MAXRETRIES KEY = getConfKey("io.maxRetries") 7 


4. SPARK NETWORK IO RETRYWAIT KEY = getConfKey("io.retryWait"); 

Se 

6. public int ioRetryWaitTimeMs() { 

了 全 return (int) JavaUtils.timeStringRsSec (Conf.get (SPARK NETWORK IO_ 
RETRYWAIT KEY, "5s")) * 1000; 

8 } 

Qs 


29.10 ”Spark.Shuffle.io.numConnectionsPerPeer 参数 调 优 原理 
及 实践 


Spark.Shuffle .io.numConnectionsPerPeer ( 仅 Netty 使 用 ) 重新 使 用 主机 之 间 的 连接 ， 以 减 
少 大 型 集群 的 连接 建立 。 对 于 具有 多 个 硬盘 和 少量 主机 的 集群 ， 这 可 能 导致 并 发 性 不 足 ， 以 
使 所 有 磁盘 饱和 ， 因 此 用 户 可 考虑 增加 此 值 ， 默 认 是 1 次 。 

TransportConfjava 中 的 numConnectionsPerPeer 用 于 获取 数据 的 两 个 节点 之 间 的 并 发 连 
接 数 。TransportConfjava 的 源码 如 下 。 


1. public TransportConf (String module，ConfigProvider conf) { 


5 SPARK NETWORK IO NUMCONNECTIONSPERPEER KEY = getConfKey 
("io.numConnectionsPerPeer"); 
public int numConnectionsPerPeer() { 
return conf.getInt (SPARK NETWORK IO NUMCONNECTIONSPERPEER KEY, 1); 


29.11 Spark.reducer.maxSizeInFlight 参数 调 优 原理 及 实践 


Spark.reducer.maxSizeInFlight 默认 值 : 48m。 

参数 说 明 : 该 参数 用 于 设置 Shuffle Read Task 的 Buffer 大 小 ， 而 这 个 Buffer 决定 了 每 次 
能 够 拉 取 多 少数 据 。 

调 优 建议 : 如 果 作 业 可 用 的 内 存 资 源 较为 充足 , 可 以 适当 增加 这 个 参数 的 大 小 (如 96m)， 
从 而 减少 拉 取 数 据 的 次 数 ， 也 就 可 以 减少 网 络 传输 的 次 数 ， 进 而 提升 性 能 。 在 实践 中 发 现 ， 
合理 调节 该 参数 ， 性 能 会 有 1% 一 5% 的 提升 。 


se 
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BlockStoreShuffleReader scala 的 源码 如 下 。 


1. private[spark] class BlockStoreShuffleReader[K, C]( 

人 

E 顽 SparkEnv.get.conf.getSizeAsMb ("spark.reducer.maxSizeInF1ight"，"48m") 
* 1024 * 1024, 


4. SparkEnv.get.conf.getInt ("spark.reducer.maxReqsInFlight", 
Int.MaxValue)) 
So 


29.12 ”Spark.Shuffle.io.preferDirectBufs 参数 调 优 原理 及 实践 


Spark.Shuffle.io.preferDirectBufs 参数 仅 Netty 使 用 : 堆 外 缓存 可 以 有 效 减少 垃圾 回收 和 
缓存 复制 。 对 于 堆 外 内 存 紧张 的 用 户 来 说 ， 可 以 考虑 禁用 这 个 选项 ， 以 迫使 Netty 所 有 内 存 
都 分 配 在 堆 上 ， 默 认 是 true。 


和 public TransportConf (String module, ConfigProvider conf) { 





区 
引 
二 
局 SPARK NETWORK IO PREFERDIRECTBUFS KEY = getConfKey ("io.preferDirectBufs"); 
(3 

了 public boolean preferDirectBufs() { 

8 return conf .getBoolean (SPRRK NETWORK IO PREFERDIRECTBUFS KEY, true); 
3 } 


29.13 ”Spark.Shuffle.memoryFraction 参数 调 优 原理 及 实践 


Spark.Shuffle.memoryFraction 参数 的 默认 值 为 20%。 

参数 说 明 : 该 参数 代表 了 Executor 内 存 中 ， 分 配给 Shuffle Read Task 进行 聚合 操作 的 内 
存 比 例 ， 默 认 是 20%。 

调 优 建议 : 如 果 内 存 充 足 , 而 且 很 少 使 用 持久 化 操作 , 建议 调 高 这 个 比例 , 给 Shuffle Read 
的 聚合 操作 更 多 内 存 ， 以 避免 由 于 内 存 不 足 导 致 聚合 过 程 中 频繁 读 写 磁盘 。 在 实践 中 发 现 ， 

合理 调节 该 参 参数 可 以 将 性 能 提升 10% 左 右 。 将 存储 Mapper 端的 输出 结果 存储 在 JVM 的 堆 

空间 中 ， 这 个 空间 的 大 小 取决 于 Spark.Shuffle memoryFraction 和 Sp Shuffle.safetyFraction 
这 两 个 参数 。 

StaticMemoryManager.scala 的 源码 如 下 。 

hs private def getMaxExecutionMemory (conf: SparkConf): Long = { 


2 val systemMaxMemory = conf.getLong("spark.testing.memory", Runtime. 
getRuntime .maxMemory) 


3 
光 沁 if (systemMaxMemory < MIN MEMORY BYTES) { 
3 throw new IllegalArgumentException(s"Systemmemory $systemMaxMemory 
Se 
5 s"be at least $MIN MEMORY BYTES. Please increase heap size using 
the --driver-memory " + 
Ni s"option or spark.driver.memory in Spark configuration.") 


909. 








8. 

区 if (conf.contains("spark.executor.memory")) { 

30- Val executorMemory = conf.-getSizeAsBytes ("spark.executor .memory") 

证 if (executorMemory < MIN MEMORY BYTES) { 

2 throw new IllegalArgumentException(s"Executor memory S$executor 
Memory must be at least " + 

3 5S"$MIN MEMORY BYTES. Please increase executor memory Using the " 十 

14. 5s"--executor-memory option or spark.executor.memory in Spark 

configuration.") 

15: . 

16. } 

Ts val memoryFraction = conf.getDouble ("spark.shuffle.memoryFraction", 0.2) 

8 val safetyFraction = conf.getDouble("spark-shuffle.safetyFraction"，0.8) 

EE (systemMaxMemory * memoryFraction * safetyFraction) .toLong 

20. } 


默认 的 计算 公式 是 Spark.Shuffle.memoryFraction (0.2)X Spark.Shuffle.safetyFraction (0.8) 
=0.16。 也 就 是 说 , 是 JVM HeapSize 的 16%。 通 过 Spark.Shuffle memoryFraction 可 以 调整 Spill 
的 触发 条 件 ， 即 Shuffle 占用 内 存 的 大 小 ， 进 而 调整 Spil 的 频率 和 GC 的 行为 。 总 的 来 说 ， 
如 果 Spill 太 过 频繁 ， 可 以 适当 增加 Spark.Shuffle.memoryFraction 的 大 小 ， 增 加 用 于 Shuffle 
的 内 存 ， 减 少 Spill 的 次 数 。 


29.14 ”Spark.Shuffle.service.enabled 参数 调 优 原理 及 实践 


Spark.Shuffle.service.enabled 必须 配置 为 true， 默认 为 false。 如 果 这 个 配置 设置 为 tue， 
BlockManager 实例 生成 时 ， 需 要 读 取 Spark.Shuffle.service.port 配置 的 Shuffle 端口 ， 同 时 对 
应 BlockManager 的 ShuffleClient 不 再 是 默认 的 BlockTransferService 实例 ， 而 是 
ExtermalShuffleClient 实例 。 

BlockManager.scala 中 客户 端 读 取 其 他 Executor 上 的 Shuffle 文件 有 两 个 方式 : 一 种 方式 
是 在 spark.shuffle.service.enabled 设置 为 tue 时 ， 创 建 shuffleClient 为 ExtemalShuffleClient; 
另 一 种 方式 是 在 spark.shuffle.service.enabled 设置 为 false 时 ,创建 shuffleClient 为 
BlockTransferService， 直 接 读 取 其 他 Executors 的 数据 。 

BlockManager 的 源码 如 下 。 


区 private[spark] class BlockManager ( 


2 executorId: String, 

ee 

证 private[spark] val externalShuffleServiceEnabled = 

已 摧 conf.getBoolean("spark.shuffle.service.enabled", false) 

人 

private[spark] val shuffleClient = if (externalShuffleServiceEnabled) { 

8 val transConf = SparkTransportConf.fromSparkConf (conf, "shuffle", 
numUsableCores) 

Ss new ExternalShuffleClient (transConf, securityManager, securityManager. 
isAuthenticationEnabled(), 

10. securityManager.isSaslEncryptionEnabled()) 

2 Br 5 } else { 

2 blockTransferService 

A } 
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启用 外 部 Shuffle Service，Shuffle Service 保留 由 Executor 写 入 的 Shuffle 文件 ， 以 便 
Executors 可 以 安全 地 删除 。 必 须 首先 把 Spark.dynamicAllocation.enabled 设置 为 tue， 才 可 以 
启动 这 个 外 部 Shuffle Service。NodeManager 中 一 个 长 期 运行 的 辅助 服务 ， 用 于 提升 Shuffle 
计算 性 能 。Shuffle Service 默认 为 false， 表 示 不 启用 该 功能 。 

ExternalShuffleService.scala 的 源码 如 下 。 


Ls private[deploy] 
2. class ExternalShuffleService(sparkConf: SparkConf, securityManager: 
SecurityManager) 

3 extends Logging { 

oe 

加 Private val enabled = sparkConf.getBoolean("spark.shuffle.service. 
enabled", false) 

| 

时 人 def startIfEnabled() 1{ 

二 if (enabled) { 

加 start () 

:局 } 

:hi 

2 


Spark 系统 在 运行 包含 Shuffle 过 程 的 应 用 时 ，Executor 进程 除了 运行 Task， 还 要 负责 写 
Shuffle 数据 ， 给 其 他 Executor 提供 Shuffle 数据 。 当 Executor 进程 任务 过 重 ， 导 致 GC 不 能 
为 其 他 Executor 提供 Shuffle 数据 时 ， 会 影响 任务 运行 。 

External Shuffle Service 是 长 期 存在 于 NodeManager 进程 中 的 一 个 辅助 服务 。 通 过 该 服务 
抓 取 Shuffle 数据 减少 了 Executor 的 压力 ， 在 Executor GC 的 时 候 也 不 会 影响 其 他 Executor 
的 任务 运行 。 

在 YARN-site.xml 中 添加 如 下 配置 项 。 

9 <property> 

<name>YARN .nodemanager.aux-services</name> 

| <value>Spark Shuffle</value> 

4. </property> 

5. <property> 

6 <name>YARN .nodemanager.aux-services.Spark Shuffle.class</name> 

7 <value>org.apache.Spark.network.YARN.YARNShuffleService</value> 

8. </property> 

9. <property> 

10. <name>Spark.Shuffle.service.port</name> 


11. <value>7337</value> 
12. </property> 


29.15 Spark.Shuffle.service.port 参数 调 优 原理 及 实践 


Spark.Shuffle.service.port 是 Shuffle 服务 监听 数据 获取 请 求 的 端口 ， 可 选 配 置 ， 默认 值 为 
T7337. 
BlockManager.scala 的 源码 如 下 。 
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本 private val externalShuffleServicePort = { 

2 val tmpPort = Utils.getSparkOrYarnConfig (conf, "spark.shuffle.service. 
Port™” "T1337")e toInt 

3 if (tmpPort == 0) { 

4. // 为 了 测试 ， 我 们 在 Yarn 配置 中 设置 spark.shuffle.service.port 为 0， 这样， 


//Yarn 就 可 找到 开放 的 端口 。 但 我 们 仍然 需要 告诉 Spark 应 用 程序 使 用 的 正确 端口 ， 
// 所 以 只 有 当 Yarn 配置 将 端口 设置 为 0 时 ， 我 们 优先 使 用 config 配置 中 的 值 
conf.get ("spark.shuffle.service.port") .toInt 
} else { 
tmpPort 
b 
} 


在 Spark-defaults.conf 中 必须 添加 如 下 配置 项 。 


Wooau 


1. Spark.Shuffle.service.enabled true 
2. Spark.Shuffle.service.port 7337 


29.16 ”Spark.Shuffle.Sort.bypassMergeThreshold 参数 调 优 
原理 及 实践 


Spark.Shuffle.Sort.bypassMergeThreshold 参数 的 默认 值 : 200。 

参数 说 明 : 当 ShuffleManager 为 SortShuffleManager 时 ， 如 果 Shuffle Read Task 的 数量 
小 于 这 个 阔 值 〈 默 认 是 200) ， 则 Shuffle Write 过 程 中 不 会 进行 排序 操作 ， 而 是 直接 按照 未 
经 优化 的 HashShuffleManager 方式 去 写 数据 ,但 是 最 后 会 将 每 个 Task 产生 的 所 有 临时 磁盘 文 
件 都 合并 成 一 个 文件 ， 并 会 创建 单独 的 索引 文件 。 

调 优 建议 : 当 使 用 SortShuffleManager 时 ， 如 果 的 确 不 需要 排序 操作 ， 那 么 建议 将 这 个 
参数 调 大 一 些 , 大 于 Shuffle Read Task 的 数量 。 那 么 , 此 时 就 会 自动 启用 bypass 机 制 , map-side 
就 不 会 进行 排序 了 ， 减 少 了 排序 的 性 能 开销 。 但 是 ， 这 种 方式 下 ， 依 然 会 产生 大 量 的 磁盘 文 
件 ， 因 此 Shuffle Write 性 能 有 待 提高 。 

这 个 参数 仅 适 用 于 SortShuffleManager。SortShuffleManager 在 处 理 不 需要 排序 的 Shuffle 
操作 时 ， 由 于 排序 使 性 能 下 降 。 这 个 参数 决定 了 在 这 种 情况 下 ， 当 Reduce 分 区 的 数量 小 于 多 
少 的 时 候 , 在 SortShuffleManager 内 部 不 使 用 Merge Sort 的 方式 处 理 数据 , 而 是 与 Hash Shuffle 
类 似 ， 直 接 将 分 区 文件 写 入 单独 的 文件 。 不 同 的 是 ， 在 最 后 一 步 还 是 会 将 这 些 文件 合并 成 一 
个 单独 的 文件 。 这 样 ， 通 过 去 除 Sort 步骤 来 加 快 处 理 速度 ， 代 价 是 需要 并 发 打开 多 个 文件 ， 
所 以 内 存 消耗 量 增加 ， 本 质 上 是 相对 HashShuffleMananger 的 一 个 折 中 方案 。 这 个 配置 的 默 
认 值 是 200, 用 于 设置 在 Reducer 的 Partition 数目 少 于 多 少 的 时 候 ，Sort Based Shuffle 内 部 不 
使 用 Merge Sort 方式 处 理 数据 ,而 是 直接 将 每 个 Partition 写 入 单独 的 文件 。 这 个 方式 和 Hash 
Based 方式 类 似 ， 区 别 就 是 最 后 这 些 文件 还 是 会 合并 成 一 个 单独 的 文件 ， 并 通过 一 个 index 
索引 文件 来 标记 不 同 Partition 的 位 置信 息 。 从 Reducer 看 来 ， 数 据 文 件 和 索引 文件 的 格式 和 
内 部 是 否 做 过 Merge Sort 是 完全 相同 的 。 

这 个 可 以 看 作 SortBased Shuffle 在 Shuffle 量 比较 小 的 时 候 对 于 Hash Based Shuffle 的 一 
种 折 中 。 当 然 , 它 和 Hash Based Shuffle 一 样 ,也 存在 同时 打开 文件 过 多 导致 内 存 占 用 增加 的 
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问题 。 因 此 ， 如 果 GC 比较 严重 或 者 内 存 比较 紧张 ， 可 以 适当 地 降低 这 个 值 。 
SortShuffleWriter.scala 中 的 shouldBypassMergeSort 方法 中 ， 如 果 分 区 个 数 小 于 

spark.shuffle.sort.bypassMergeThreshold (200) ， 就 返回 tue， 不 需要 进行 排序 。 
SortShuffleWriter.scala 的 shouldBypassMergeSort 的 源码 如 下 。 





1. private[spark] object SortShuffleWriter { 
后 def shouldBypassMergeSort (conf: SparkConf, dep: ShuffleDependency[ , 
_r _]): Boolean = { 
3 // 如 果 需 要 执行 map 端的 聚合 ， 就 不 能 绕 过 排序 
4. if (dep.mapSideCombine) { 
SE require (dep.aggregator.isDefined, "Map-side combine without Aggregator 
specified!") 


6 false 

了 } else { 

四 号 Val bypassMergeThreshold: Int = conf.getInt("spark.shuffle.sort-. 
bypassMergeThreshold", 200) 

9 dep.Partitioner.numPartitions <= bypassMergeThreshold 

10. } 

Ee} 

2 


29.17 Spark.Shuffle.spill 参数 调 优 原理 及 实践 


Shuffle 的 过 程 中 , 如 果 涉 及 排序 、 聚 合 等 操作 , 势必 会 需要 在 内 存 中 维护 一 些 数据 结构 ， 
进而 占用 额外 的 内 存 。 如 果 内 存 不 够 用 ， 那 具有 两 条 路 可 以 走 : 一 就 是 Out Of Memory 出 错 
了 ; 二 就 是 将 部 分 数据 临时 写 到 外 部 存储 设备 中 ， 最 后 再 合并 到 最 终 的 Shuffle 输出 文件 中 。 

这 里 ，Spark.Shuffle.Spill 决定 是 否 Spill 到 外 部 存储 设备 (默认 打开 ) ， 如 果 你 的 内 存 
足够 ， 或 者 数据 集 足 够 小 ， 当 然 也 就 不 需要 Sp 也 ， 毕 况 Spill 带 来 了 额外 的 磁盘 操作 。 默 认 
情况 下 ， 这 个 参数 是 tue， 在 Shuffle 期 间 通过 溢出 数据 到 磁盘 降低 了 内 存 使 用 总 量 ， 溢 出 阔 
值 是 由 Spark.Shuffle memoryFraction 指定 的 。 

Hash BasedShuffle 的 Shuffle Write 过 程 中 使 用 的 org.apache.Spark.util. collection. 
AppendOnlyMap 就 是 全 内 存 的 方式 ， 而 org.apache.Sparkutil.collection.ExtemalAppendOnlyMap 
对 org.apache.Spark.util.collection.AppendOnlyMap 有 了 进一步 的 封装 ， 在 内 存 使 用 超过 阔 值 
时 , 会 将 它 Spill 到 外 部 存储 ， 最 后 会 对 这 些 临 时 文件 进行 Merge。 而 Sort BasedShuffle Write 
使 用 到 的 org.apache.Spark.util.collection.ExternalSorter 也 会 有 类 似 的 Spill。 

而 对 于 ShuffleRead， 如 果 需 要 做 Aggregate， 也 可 能 在 Aggregate 的 过 程 中 将 数据 Spill 
到 外 部 存储 。 

SortShuffleManager.scala 的 源码 如 下 。 


Me private[spark] class SortShuffleManager (Conf: SparkConf) extends 
ShuffleManager with Logging { 

所 if (!conf.getBoolean("spark.shuffle.spill", true)) { 

4. LogWarning( 

本 5 "spark.shuffle.spill was set to false, but this configuration is 

ignored as of Spark 1.6+." + 
6- " Shuffle will continue to spill to disk when necessary.") 
FE } 


NB 
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29.18 ”Spark.Shuffle.spill.compress 参数 调 优 原理 及 实践 


理论 上 ，Spark.Shuffle.compress 设置 为 tue 通常 都 是 合理 的 ， 因 为 如 果 使 用 千 兆 以 下 的 
网 卡 ， 网 络 带 宽 往 往 最 容易 成 为 瓶颈 。 此 外 ， 目 前 的 Spark 任务 调度 实现 中 ， 以 Shuffle 划分 
Stage, 下 一 个 Stage 的 任务 要 等 待 上 一 个 Stage 的 任务 全 部 完成 后 ,才能 开始 执行 ,所 以 Shuffle 
数据 的 传输 和 CPU 计算 任务 之 间 通 常 不 会 重 登 ， 这 样 ，Shuffle 数据 传输 量 的 大 小 和 所 需 的 
时 间 就 直接 影响 到 整个 任务 的 完成 速度 。 但 是 ,压缩 也 是 要 消耗 大 量 CPU 资源 的 ， 所 以 打开 
压缩 选项 会 增加 Map 任务 的 执行 时 间 。 因 此 ， 如 果 在 CPU 负载 的 影响 远大 于 磁盘 和 网 络 带 
宽 的 影响 的 场合 下 ， 也 可 能 将 Spark.Shuffle.compress 设置 为 false 才 是 最 佳 的 方案 。 

对 于 Spark.Shuffle.spill.compress 而 言 ， 情 况 类 似 ， 但 是 Spill 数据 不 会 被 发 送 到 网 络 中 ， 
仅仅 是 临时 写 入 本 地 磁盘 ， 而 且 在 一 个 任务 中 同时 需要 执行 压缩 和 解压 缩 两 个 步骤 ， 所 以 对 
CPU 负载 的 影响 会 更 大 一 些 ， 而 磁盘 带宽 (如 果 标 配 12HDD 的 话 ) 可 能 往往 不 会 成 为 Spark 
应 用 的 主要 问题 ， 所 以 这 个 参数 相对 而 言 ， 或 许 更 需要 设置 为 false。 

总 之 ， 在 Shuffle 过 程 中 数据 是 否 应 该 压缩 ， 取 决 于 CPU、 磁 盘 、 网 络 的 实际 能 力 和 负 


SerializerManager.scala 的 源码 如 下 。 

a private[spark] class SerializerManager( 

defaultSerializer: Serializer, 

2 conf: SparkConf, 

汪 s encryptionKey: Option[RArray[Byte]]) { 

站 区 

6: 

7. // 是 否 讨 缩 存储 的 广播 变量 

8. private[this] val compressBroadcast = conf.getBoolean("spark.broadcast. 


compress", true) 
9. ”// 是 否 计 缩 存储 的 Shuffle 输出 
10. private[this] val compressShuffle = conf.getBoolean("spark.shuffle. 
compress", true) 
11.  // 是 否 压缩 RDD 分 区 存储 序列 化 
12. private[this] val compressRdds = conf.getBoolean("spark.rdd.compress", 
false) 
13. // 是 否 压缩 Shuffle 临时 输出 溢出 到 磁盘 
14. private[this] val compressShuffleSpil]l = conf.getBoolean("spark.shuffle. 
spill.compress", true) 
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本 章 深入 讲解 Spark 性 能 调 优 之 数据 倾斜 调 优 一 站 式 解决 方案 原理 与 实战 。30.1 节 讲 解 
为 什么 数据 倾斜 是 分 布 式 大 数据 系统 的 性 能 置 梦 : 30.2 节 讲 解数 据 倾斜 解决 方案 之 一 : 对 源 
数据 进行 聚合 并 过 滤 掉 导致 倾斜 的 Keys; 30.3 节 讲 解数 据 倾斜 解决 方案 之 二 : 适当 提高 
Reducer 端的 并 行 度 ; 30.4 节 讲 解数 据 倾斜 解决 方案 之 三 : 使 用 随机 Key 实现 双重 聚合 ; 30.5 
节 讲 解数 据 倾斜 解决 方案 之 四 : 使 用 Mapper 端 进行 Join 操作 ;30.6 节 讲 解数 据 倾斜 解决 方 
案 之 五 ， 对 倾斜 的 Keys 采样 后 进行 单独 的 Join 操作 ; 30.7 节 讲解 数据 倾斜 解决 方案 之 六 : 
使 用 随机 数 进行 Join; 30.8 节 讲 解数 据 倾斜 解决 方案 之 七 : 通过 扩容 进行 Join;30.9 节 结 合 
电影 点 评 系统 进行 数据 倾斜 解决 方案 的 小 结 。 





30.1 为 什么 数据 倾斜 是 分 布 式 大 数据 系统 的 性 能 重 梦 


本 节 讲 解数 据 倾斜 为 何 是 分 布 式 大 数据 系统 的 性 能 屡 梦 ; 讲解 什么 是 数据 倾斜 ,数据 倾 
斜 对 性 能 的 巨大 影响 ， 如 何 判断 Spark 程序 运行 中 出 现 了 数据 倾斜 以 及 如 何 定位 数据 倾斜 等 
内 容 。 


30.1.1 什么 是 数据 倾斜 


何谓 数据 倾斜 ? 数据 倾斜 是 指 并 行 处 理 数据 集 的 某 一 部 分 (如 Spark 或 Kafka 的 一 个 
Partition ) 的 数据 显著 多 于 其 他 部 分 , 从 而 使 得 该 部 分 的 处 理 速度 成 为 整个 数据 集 处 理 的 瓶颈 。 
数据 倾斜 的 基本 特征 : 个 别 任务 处 理 大量 数 据 , 符合 二 八 定律 , 约 20% 的 任务 处 理 80% 的 数 
据 ， 数 据 中 基本 上 都 存在 业务 热点 问题 ， 这 是 现实 问题 ， 如 图 30-1 所 示 。 

举 一 个 例子 :在 Spark 中 ， 同 一 个 Stage 不 同 的 Partition 可 以 并 行 处 理 ， 而 具体 依赖 关 
系 在 不 同 Stage 之 间 是 串 行 处 理 的 。 假 设 某 个 Spark Job 分 为 Stage 0 和 Stage 1 两 个 Stage， 
且 Stage 1 依赖 于 Stage 0， 那 Stage 0 完全 处 理 结束 之 前 不 会 处 理 Stage 1。 而 Stage 0 可 能 
含 N 个 Task,， 这 入 个 Task 可 以 并 行进 行 。 如 果 其 中 N-1 个 Task 都 在 10s 内 完成 ， 而 另外 一 
个 Task 却 耗 时 Imin， 那 该 Stage 的 总 时 间 至 少 为 Imin。 换 句 话 说， 一 个 Stage 耗费 的 时 间 主 
要 由 最 慢 的 那个 Task 决定 ， 由 于 同一 个 Stage 内 的 所 有 Task 执行 相同 的 计算 ， 在 排除 不 
同 计算 节点 计算 能 力 差异 的 前 提 下 ， 不 同 Task 之 间 耗 时 的 差异 主要 由 该 Task 处 理 的 数据 量 
什么 原因 导致 数据 倾斜 ， 原 因 很 简单 ， 数 据 分 配给 不 同 的 Task， 一 般 就 是 Shuffle 的 过 
程 。 在 Shuffle 的 过 程 中 ， 同 样 一 个 Key 一 般 都 会 交 给 一 个 Task 去 处 理 ， 可 能 有 时 候 运 气 
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很 不 好 ， 同 样 一 个 Key 的 Value 太 多 了 。 假 设 图 30-1 所 示 的 例子 有 5 个 Key， 分 别 是 K1、 
K2、K3、K4、K5; 同样 一 个 Key 会 分 成 一 个 Task， 现 在 K3 中 的 Value 特别 多 ， 这 会 导 
致 很 多 数据 集中 在 K3 这 个 Task 中 。 







数据 倾斜 基本 特征 : 个 别 Task 
处 理 大 量 的 数据 


5 亿 条 数据 
图 30-1 数据 倾斜 示意 图 


30.1.2 “数据 倾斜 对 性 能 的 巨大 影响 


大 数据 基本 有 3 个 特性 ， 第 一 是 数据 多 样 化 ， 有 着 不 同类 型 的 数据 ， 其 中 包括 结构 化 和 
非 结 构 化 数据 ， 第 二 是 庞大 的 数据 量 ;， 第 三 就 是 数据 的 流动 性 ， 从 批 处 理 到 流 处 理 。 一 般 在 
处 理 大 数据 的 时 候 ， 都 会 面 对 这 3 个 特性 的 问题 ， 而 Spark 就 是 基于 内 存 的 分 布 式 计算 引擎 ， 
以 处 理 高 效 和 稳定 著称 ， 是 目前 处 理 大 数据 的 一 个 非常 好 的 选择 。 然 而 在 实际 的 应 用 开发 过 
程 中 ， 开 发 者 还 是 会 遇 到 种 种 问题 ， 其 中 一 大 类 问题 就 是 和 性 能 相关 的 问题 。 

在 分 布 式 系统 中 ， 数 据 分 布 在 不 同 的 节点 上 ， 每 个 节点 计算 一 部 分 数据 ， 如 果 不 对 各 个 


来 发 挥 它 本 身 并 行 计 算 的 能 力 ， 而 后 续 又 需要 计算 各 节点 上 最 终 的 结果 ， 所 以 需要 把 数据 汇 
聚集 中 ， 这 就 会 导致 Shuftle， 而 Shuffle 又 会 导致 数据 倾斜 。 

数据 倾斜 最 致命 的 就 是 Out-Of-Memory (OOM) 。 一 般 OOM 都 是 由 数据 倾斜 所 致 ! 如 
果 应 用 程序 在 运行 时 速度 变 得 非常 慢 ， 就 有 可 能 出 现 数据 倾斜 。 它 带 来 的 结果 是 原本 程序 可 
以 在 10min 内 运行 完毕 ， 因 为 数据 倾斜 的 原因 ， 其 中 有 一 个 任务 要 处 理 的 数据 特别 多 ， 这 个 
时 候 ， 当 其 他 程序 都 运行 完成 时 ， 就 因为 这 个 数据 量 特大 的 任务 还 在 运行 ， 导 致 这 个 程序 原 
本 可 以 用 10min 完成 ， 最 后 用 了 lh。 这 极 大 地 降低 了 工作 效率 ! 

所 有 编程 高 手 无 论 做 什么 类 型 的 编程 ， 最 终 思考 的 都 是 硬件 方面 的 问题 ! 最 终 思考 的 都 
是 在 ls、lms， 甚 至 lns 到 底 是 如 何 运行 的 ， 并 且 基 于 此 进行 算法 实现 和 性 能 调 优 ， 最 后 都 
到 了 硬件 ! 大 数据 最 怕 的 就 是 数据 本 地 性 〈 内 存 中 ) 和 数据 倾斜 或 者 叫 数据 分 布 不 均衡 、 
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数据 转 输 的 问题 ， 这 是 所 有 分 布 式 系统 的 问题 ! 数据 倾斜 其 实 是 与 业务 紧密 相关 的 。 所 以 ， 
调 优 Spark 的 重点 一 定 是 从 数据 本 地 性 和 数据 倾斜 入 手 。 

分 布 式 计算 引擎 在 调 优 方面 有 4 个 主要 关注 方向 , 分 别 是 CPU、 内 存 、 网 络 开 销 和 1/O， 
其 具体 调 优 目 标 如 下 。 

口 提高 CPU 利用 率 。 

口 避免 OOM。 

口 降低 网 络 开销 。 

口 减少 IO 操作 。 
因为 Spark 作业 运行 过 程 中 , 最 消耗 性 能 的 地 方 就 是 Shuffle 过 程 。Shuffle 过 程 ， 简 单 来 
说 ， 就 是 将 分 布 在 集群 中 多 个 节点 上 的 同一 个 Key， 拉 取 到 同一 个 节点 上 ， 进 行 聚合 或 Join 
等 操作 。 例 如 ，reduceByKey、join 等 算 子 ， 都 会 触发 Shuffle 操作 。Shuffle 过 程 中 ， 各 个 节 
点 上 的 相同 Key 都 会 先 写 入 本 地 磁盘 文件 中 ,然后 其 他 节点 需要 通过 网 络 传输 拉 取 各 个 节点 
上 的 磁盘 文件 中 的 相同 Key。 而 且 相 同 Key 都 拉 取 到 同一 个 节点 进行 聚合 操作 时 ， 还 有 可 能 
会 因为 一 个 节点 上 处 理 的 Key 过 多 , 导致 内 存 不 够 , 进而 溢 写 到 磁盘 文件 中 。 因此 , 在 Shuffle 
过 程 中 ， 可 能 会 发 生 大 量 的 磁盘 文件 读 写 的 IO 操作 ， 以 及 数据 的 网 络 传输 操作 。 磁 盘 IO 
和 网 络 数据 传输 也 是 Shuffle 性 能 较 差 的 主要 原因 。 

如 果 非 要 做 Shuffle, 就 要 注意 是 否 有 数据 倾斜 的 情况 存在 。 出 现 数据 倾斜 的 时 候 ，Spark 
作业 看 起 来 会 运行 得 非常 缓慢 ， 甚 至 可 能 因为 某 个 Task 处 理 的 数据 量 过 大 导致 内 存 溢出 。 


30.1.3 如何 判断 Spark 程序 运行 中 出 现 了 数据 倾斜 





























分 布 式 系统 常见 的 一 个 性 能 问题 是 倾斜 , 即 若干 个 Task 相对 于 其 他 大 多 数 Task 来 说 消 
耗 了 相当 长 的 时 间 。 我们 可 以 通过 查看 Task 的 metrics 来 判断 是 否 有 倾斜 。 Task 运行 了 多 久 ， 
是 否 有 些 Task 相 比 其 他 Task 需要 多 得 多 的 运行 时 间 ， 如 果 是 ， 就 需要 进一步 分 析 这 些 Task 
执行 慢 的 原因 ; 是 否 有 些 Task 相 比 其 他 Task， 读 或 写 了 多 得 多 的 数据 ， 是 否 某 些 节点 上 的 
Task 都 运行 得 特别 慢 ， 等 等 。 这 些 都 是 我 们 性 能 诊断 时 首先 要 关注 的 。 我 们 还 要 关注 Task 
在 读 、 计算 和 写 的 各 个 阶段 消耗 了 多 少时 间 ， 如 果 Task 读 写 数据 消耗 的 时 间 不 多 , 而 整体 消 
耗 时 间 较 多 ， 则 可 能 是 因为 应 用 程序 代码 的 问题 ， 就 需要 考虑 代码 的 优化 ; 也 可 能 有 些 Task 
几乎 所 有 的 时 间 都 消耗 在 从 外 部 存储 系统 读 取 数据 上 了 ， 这 时 瓶颈 在 输入 的 读 取 上 ， 单 纯 优 
化 Spark 可 能 就 没 多 大 帮助 了 。 

Stages 主页 面 如 图 30-2 所 示 。 





图 30-2 Stages 主页 面 
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点 击 某 个 Stage 即 可 进入 到 Stages 的 细节 页 面 ， 如 图 30-3 所 示 。 
master wt "ela 交 自 四 芭 有 四 三 
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图 30-3 ”Stages 的 细节 页 面 


30.1.4 ”如 何 定 位 数据 倾斜 


如 何 定位 数据 倾斜 : 

口 Spark Web UI 页 面 ， 可 以 清晰 地 看 见 Task 运行 的 数据 量 大 小 。 

口 Log 日 志 : Log 的 一 个 好 处 是 可 以 清晰 地 显示 哪 一 行 出 现 OOM 问题 ， 同 时 可 以 清晰 
地 看 到 具体 在 哪个 Stage 出 现 数据 倾斜 (数据 倾斜 一 般 是 在 Shuffle 过 程 中 产生 的 )， 
从 而 定位 具体 Shuffle 的 代码 , 也 可 能 发 现 绝 大 多 数 Task 非常 快 ， 但 是 个 别 Task 非 
常 慢 。 

口 代码 走读 ， 重 点 看 Join、groupByKey、reduceByKey 等 的 关键 代码 。 

口 对 数据 特征 分 布 进行 分 析 。 





30.2 ”数据 倾斜 解决 方案 之 一 : 对 源 数据 进行 聚合 并 过 滤 掉 
导致 倾 儿 的 Keys 

本 节 对 源 数据 进行 聚合 并 过 滤 掉 导致 倾斜 的 Keys 进行 解析。 首先 对 源 数据 进行 聚合 # 

过 滤 掉 导致 倾斜 的 Keys 的 适用 场景 进行 分 析 , 然后 对 源 数据 清洗 倾斜 的 Keys 原理 进行 剖析 ; 


通过 使 用 Hive 等 ETL 工具 对 源 数据 进行 聚合 ， 使 用 Spark SQL 对 源 数据 进行 清洗 过 滤 等 广 
式 解决 数据 倾斜 的 问题 。 
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30.2.1 适用 场景 分 析 





对 源 数 据 进 行 聚合 并 过 滤 掉 导致 倾斜 的 Keys: 之 所 以 会 有 这 样 的 想法 ， 是 因为 从 结果 上 
看 ， 数 据 倾 斜 的 产生 来 自 于 数据 的 处 理 技 术 ， 用 户 一 般 都 是 从 数据 的 技术 处 理 层面 考虑 如 何 
解决 数据 倾斜 ， 现 在 需要 回 到 数据 的 层面 去 解决 数据 倾斜 的 问题 。 

数据 本 身 就 是 Key-Value 的 存在 方式 。 所 谓 的 数据 倾斜 , 就 是 说 某 ( 几 ) 个 Key 的 Value 
特别 多 ， 如 果 要 解决 数据 倾斜 ,实质 上 是 解决 单一 的 Key 的 Value 的 个 数 特 别 多 的 情况 ， 新 
的 数据 倾斜 解决 方案 由 此 诞生 。 

预先 和 其 他 表 进 行 Join, 将 数据 倾斜 提前 到 上 游 的 Hive ETL; 在 Hive 表 中 提前 执行 Join 
等 相关 操作 ， 将 数据 倾斜 从 Spark 分 布 式 计算 中 提前 到 Hive 中 实现 ， 此 场景 适用 于 Hive 中 
数据 分 布 不 均衡 ， 通 过 Hive 固定 周期 (小 时 、 日 、 月 ) 进行 批 处 理 数据 ，Hive 处 理 后 的 数 
据 提供 给 Spark 进行 计算 。 








30.2.2 ”原理 剖析 


对 源 数据 进行 聚合 并 过 滤 掉 导致 倾斜 的 Keys: 在 Spark 分 布 式 计算 业务 代码 中 读 入 数据 
源 数 据 ， 如 数据 源 (Hdfs、 本 地 文件 、Kafka 等 ) 记录 中 导致 数据 倾斜 的 Key 只 有 很 少儿 个 ， 
这 些 Key 不 影响 对 业务 的 计算 。 例 如 ， 某 些 无 效 的 Key 数据 (-1 值 、null 值 等 ) ， 汇 聚 以 后 
对 应 的 Value 值 却 很 多 ， 可 能 会 导致 数据 倾斜 。 我 们 可 以 使 用 filter 算 子 将 这 些 倾斜 的 Key 
值 过 滤 掉 ， 这 样 ， 其 他 Key 的 值 都 对 应 均衡 的 Value 值 ， 从 而 不 会 产生 数据 倾斜 。 
RDD.scala 的 filter 的 源码 如 下 。 


1. /水 
* 返回 一 个 新 的 RDD， 包 含 满足 谓词 的 元 素 
*/ 
def filter(f: T => Boolean): RDD[IT] = withScope { 
val cleanF = sc.clean(f) 
new MapPartitionsRDD[T, T]( 
Thase 
(context, pid, iter) => iter.filter (cleanF), 
preservesPartitioning = true) 


1 


oawm 必 wm 


30.2.3 使 用 Hive 等 ETL 工具 对 源 数据 进行 聚合 并 过 滤 掉 导致 倾斜 的 Keys 


Hive 是 底层 封装 了 Hadoop 的 数据 仓库 处 理工 具 ， 使 用 HiveQL 语言 实现 数据 查询 ， 所 
有 Hive 的 数据 都 存储 在 Hadoop 兼容 的 文件 系统 (Amazon S3、HDFS ) 中 。 Hive 基于 Hadoop 
系统 进行 SQL 查询 ， 由 于 Hadoop 延迟 较 高 、 作 业 提 交 及 调度 性 能 开销 较 大 ， 因 此 ，Hive 并 
不 能 够 在 大 规模 数据 集 上 实现 低 延 迟 快速 的 查询 ，Hive 不 适合 那些 需要 低 延 迟 的 应 用 ， 但 适 
用 于 大 数据 集 的 批 处 理 作 业 ， 如 网 络 日 志 分 析 。 

如 果 Hive 表 中 的 数据 存在 数据 倾斜 ，Hive 表 中 的 数据 分 布 很 不 均衡 ， 如 果 采 用 Spark 
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读 取 Hive 表 中 数据 倾斜 的 数据 ， 进 行 Shuffle 算 子 计算 时 ， 由 于 Hive 系统 中 数据 倾斜 ， 所 以 
会 导致 Spark 某 些 任务 运行 特别 缓慢 或 者 运行 时 出 现 OOM 现象 。 此 时 我 们 可 以 将 数据 倾斜 
的 操作 前 移 到 Hive 中 进行 ， 在 Hive 中 对 数据 倾斜 的 记录 进行 预 处 理 ， 这 样 就 从 数据 根源 上 
解决 了 数据 倾斜 的 问题 ，Spark 分 布 式 计算 时 就 不 用 执行 Shuffle 算 子 ， 从 而 也 就 避免 了 数据 
倾斜 。 


30.2.4 使 用 Spark SQL 对 源 数据 进行 聚合 并 过 滤 掉 导致 倾斜 的 Keys 


对 源 数据 进行 聚合 并 过 滤 掉 导致 倾斜 的 Keys， 我 们 可 以 使 用 多 种 过 滤 清 洗 方式 。 

口 如 果 在 Spark SQL 中 查询 发 生 数据 倾斜 ， 可 以 在 Spark SQL 中 使 用 where 子 句 过 滤 
掉 数 据 倾 斜 的 Key， 然 后 再 进行 groupBy 等 表 关联 操作 。 

口 加 一 个 中 间 适 配 层 ， 当 数据 进来 的 时 候 进行 Key 的 统计 和 动态 排名 ， 基 于 该 排名 动 
态 地 调整 Key 分 布 ; 这 种 情况 表示 数据 倾斜 特别 严重 ， 此 时 可 以 使 用 内 存 级 别 的 数 
据 库 , 不 断 统 计 Key 值 并 进行 排名 ,如 果 Key 值 特别 多 , 则 可 以 对 Key 值 进行 调整 ， 
如 触发 一 个 过 程 ， 将 Key 值 加 上 一 个 时 间 戳 ， 以 时 间 为 考虑 因素 改变 Key 的 分 布 。 

口 采用 Spark 的 sample 算 子 ， 对 RDD 的 Key 值 进 行 采 样 ， 如 果 某 些 倾斜 的 Key 值 不 
是 业务 需要 的 ， 则 通过 filter 算 子 对 倾斜 的 Key 值 进行 过 滤 。 


30.3 ”数据 倾斜 解决 方案 之 二 : 适当 提高 Reducer 端的 并 行 度 


分 : 基本 关于 并 行 度 的 使 用 ，@ 相对 高 级 的 内 容 : 并 行 度 的 深度 使 用 。 数 据 倾斜 的 数据 
表现 ， 某 一 个 任务 的 数据 量 特别 多 ， 导 致 内 存 无 法 装载 这 个 数据 或 者 导致 某 个 任务 的 执行 特 
别 绥 慢 。 如 果 能 够 改变 并 行 度 ， 如 将 并 行 度 变 大 ， 往 往 数据 倾斜 的 问题 也 会 有 所 改善 。 


30.3.1 适用 场景 分 析 


改善 并 行 度 之 所 以 能 改变 数据 倾斜 的 原因 在 于 , 如 果 某 个 Task 有 100 个 Key 且 数 据 量 
特别 大 ， 就 极 有 可 能 导致 OOM 或 者 任务 运行 特别 慢 ， 此 时 如 果 把 并 行 度 变 大 ， 则 可 以 分 解 
该 Task 的 数据 量 , 例如 ， 把 原本 Task 的 100 个 Key 分 解 给 10 个 Task， 这 就 可 以 减少 每 
个 Task 的 数据 量 ， 从 而 有 可 能 解决 OOM 和 任务 运行 慢 的 问题 。 

对 于 reduceByKey， 可 以 传 入 并 行 度 的 参数 ”numpPartitions:int， 该 参数 就 设置 了 这 个 
Shuffle 算 子 执行 时 Shuffle read Task 的 数量 ， 也 可 以 自 定义 Partitioner， 增 加 Executor 改变 
计算 资源 ， 从 数据 倾斜 的 角度 来 看 ， 并 不 能 直接 去 解决 数据 倾斜 的 问题 ， 但 是 也 有 好 处 ， 好 
处 是 同时 可 以 并 发 运行 更 多 的 Task， 结 果 是 可 能 加 快 了 运行 速度 。 增 加 Shuffle read Task 的 
数量 ， 可 以 让 原本 分 配给 一 个 Task 的 多 个 Key 分 配给 多 个 Task， 从 而 让 每 个 Task 处 理 比 原 
来 更 少 的 数据 。 
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30.3.2 ”原理 剖析 


Spark 中 有 很 多 Shuffle 操作 ， 如 groupByKey、reduceByKey 等 。 在 RDD.scala 源码 中 找 
不 到 reduceByKey 算 子 源码 ， 为 RDD.scala 不 是 Key-Value 类 型 的 。 我 们 在 
PairRDDFunctions.scala 中 去 找 reduceByKey 算 子 。reduceByKey 有 3 个 重 载 的 方法 ， 其 中 一 
个 重 载 方法 reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[ 攻 ，V)] 中 有 
Partitioner。 下 面 是 最 简单 的 reduceByKey 重 载 方法 。 

PairRDDFunctions.scala 的 reduceByKey 的 源码 如 下 。 


; 耳 /** 
* 使 用 关联 和 交换 汇聚 函数 合并 每 个 键 的 值 。 在 将 结果 发 送 到 Reducer 端 前 ， 在 每 个 map 
* 端 执行 本 地 合并 ， 类 似 MapReduce 的 combiner， 输 出 将 根据 分 区 器 /并 行 度 进行 重新 分 区 
a/ 
def reduceByKey (func: (V, V) => V): RDD[(K, V)] = self.withScope { 
reduceByKey (defaultPartitioner (self), func) 
} 


[SS 


其 中 ，defaultPartitioner 是 传 入 进来 的 分 区 器 。 在 方法 里 面 又 调用 了 reduceByKey 方法 。 
PairRDDFunctions.scala 的 reduceByKey 的 源码 如 下 。 
1. /a# 


* 使 用 关联 和 交换 汇聚 函数 合并 每 个 键 的 值 。 在 将 结果 发 送 到 Reducer 端 前 ， 在 每 个 map 
* 端 执行 本 地 合并 ， 类 似 MapReduce 的 combiner 


2 */ 

< def reduceByKey (partitioner: Partitioner, func: (V, V) => V): RDD[(K, 
V)] = self.withScope { 

combineByKeyWithClassTag[V] ((v: V) => v, func, func, partitioner) 

Se . 


这 里 如 果 要 改变 并 行 度 ， 可 以 自 定 义 一 个 Partitioner， 如 果 并 行 度 是 1000， 进 行 Shuffle 
的 时 候 并 行 度 也 是 1000， 除 非 没 有 1000 个 Key。reduceByKey 传 入 numPartitions 参数 ， 
numPartitions 是 直接 传 入 并 行 度 的 数字 ， 这 里 采用 HashPartitioner 的 分 区 方式 。 

PairRDDFunctions.scala 的 reduceByKey 的 源码 如 下 。 

和 /六 


* 使 用 关联 和 交换 汇聚 函数 合并 每 个 键 的 值 。 在 将 结果 发 送 到 Reducer 端 前 ， 在 每 个 map 端 
* 上 执行 本 地 合并 ， 类 似 MapReduce 的 combiner， 输 出 将 根据 分 区 器 数量 重新 分 区 
学 瑟 3 
= 司 def reduceByKey (func: (V, V) => V, numPartitions: Int): RDD[(K, V)] = 
self.withScope { 
reduceByKey (new HashPartitioner (numPartitions), func) 


1 


30.3.3 ”案例 实战 


Cn 心 


用 并 行 度 解决 数据 倾斜 的 基本 应 用 : 如 reduceByKey。 
改变 并 行 度 之 所 以 能 够 改善 数据 倾斜 的 原因 在 于 ， 如 果 某 个 Task 有 100 个 Key 且 数 据 
量 特别 大 ， 就 极 有 可 能 导致 OOM 或 者 任务 运行 特别 缓慢 ， 此 时 如 果 把 并 行 度 变 大 ， 则 可 以 
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分 解 该 Task 的 数据 量 。 例 如 ， 把 原本 该 Task 的 100 个 Key 分 解 给 10 个 Task， 这 就 可 以 减 
少 每 个 Task 的 数据 量 ， 从 而 有 可 能 解决 OOM 和 任务 慢 的 问题 。 

对 于 reduceByKey 而 言 ， 可 以 传 入 并 行 度 的 参数 ， 也 可 以 自 定义 Partitioner。 

增加 Executor: 改变 计算 资源 ， 仅 从 数据 倾斜 的 角度 看 ， 并 不 能 直接 解决 数据 倾斜 的 问 
题 ， 但 是 也 有 好 处 ， 好 处 是 可 以 并 发 运行 更 多 的 Task， 结 果 是 可 能 加 快运 行 速度 。 

用 并 行 度 解决 数据 倾斜 的 深度 应 用 : 可 参阅 30.4 节 “ 使 用 随机 Key 实现 双重 聚合 ”, 通 
过 双重 聚合 〈 局 部 聚合 + 全 局 聚合 ) 的 方式 将 原本 倾斜 的 Key 值 通过 分 而 治之 方案 分 散 开 ， 
最 后 再 进行 全 局 聚合 ， 其 本 质 还 是 通过 改变 并 行 度 去 解决 数据 倾斜 的 问题 。 





30.3.4 注意 事项 


并 行 度 指 的 就 是 RDD 的 分 区 数 。 由 于 一 个 分 区 对 应 一 个 Task， 并 行 度 也 是 一 个 Stage 
中 的 Task 数 ， 这 些 Task 被 并 行 地 处 理 。RDD 是 以 Partition〈 即 分 区 ) 的 形式 散落 在 集群 上 
的 ， 每 个 分 区 都 包含 了 一 部 分 待 处 理 的 数据 ，Spark 程序 运行 时 ， 会 为 每 个 待 处 理 的 分 区 创 
建 一 个 Task， 且 默认 情况 下 每 个 Task 占用 一 个 CPU Core 来 处 理 。 

Spark 有 一 套 自己 自动 推导 出 默认 的 分 区 数 的 机 制 。 当 我 们 在 程序 中 通过 操作 算 子 〈 如 
textFile 等 ) 读 取 外 部 数据 源 ， 以 获得 Input RDD 时 ，Spark 会 自动 根据 外 部 数据 源 的 大 小 推 
导出 一 个 合适 的 、 默 认 的 分 区 数 ， 如 HDFS 文件 的 每 个 block 就 对 应 一 个 分 区 ; 在 对 RDD 进 
行 map 类 不 涉及 Shuffle 的 操作 时 , 由 于 分 区 数 具有 遗传 性 ,新 产生 的 RDD 的 分 区 数 由 parent 
RDD 中 最 大 的 分 区 数 决定 ; 在 对 RDD 进行 reduce 类 涉及 Shuffle 操作 的 算 子 时 (如 
groupByKey、 reduceByKey 等 各 种 reduce 操作 算 子 ), 由 于 分 区 数 具有 遗传 性 , 新 产生 的 RDD 
的 分 区 数 也 由 parent RDD 中 最 大 的 分 区 数 决 定 。 如 果 是 在 spark-shell 交互 式 命令 终端 下 ， 则 
可 以 通过 方法 rdd.partitions.size 获得 某 个 RDD 的 分 区 数 ， 而 在 Spark 1.6.0 以 后 的 版 本 中 , 也 
可 以 通过 rdd.getNumPartitions 获得 某 个 RDD 的 分 区 数 。 

并 行 度 对 性 能 的 影响 有 两 方面 ， 当 并 行 度 不 够 大 时 ， 会 存在 资源 的 闲置 与 浪费 ， 例 如 ， 
一 个 应 用 程序 分 配 到 了 1000 个 Core， 但 是 一 个 Stage 里 只 有 30 个 Task， 这 时 就 可 以 提高 并 
行 度 ， 以 提升 硬件 利用 率 ， 而 当 并 行 度 太 大 时 ，Task 常常 几 微 秒 就 执行 完毕 ， 或 Task 读 写 
的 数据 量 很 小 ， 这 种 情况 下 ，Task 频繁 地 开辟 与 销毁 的 不 必要 的 开销 就 太 大 ， 我 们 就 需要 调 
小 并 行 度 。 

1 于 Spark 自动 推导 出 的 默认 的 分 区 数 很 多 时 候 是 不 理想 的 ， 所 以 我 们 必须 人 为 地 加 以 
控制 ， 来 改变 并 行 度 。Spark 提供 了 4 种 改变 并 行 度 的 方式 。 

第 一 种 ， 使 用 读 取 外 部 数据 源 的 textFile 类 算 子 时 ， 可 以 通过 可 选 的 参数 minPartitions 
显 式 指定 最 小 的 分 区 数 。 

第 二 种 ， 针 对 已 经 存在 的 RDD， 可 以 通过 方法 repartition() 或 coalesce() 来 改变 并 行 度 。 
repartition() 和 coalesceO 的 区 别 在 于 ， 前 者 会 产生 Shuffle， 而 后 者 默认 不 会 产生 Shuffle。 事 
实 上 ， 当 有 大 量 小 任务 〈 任 务 处 理 的 数据 量 小 且 耗 时 短 ) 时 ， 如 某 个 RDD 在 filter 操作 后 ， 
由 于 过 滤 掉 了 大 量 数据 ， 每 个 分 区 都 只 剩 下 了 很 少量 的 数据 ， 这 时 我 们 常用 coalesceO 来 合 } 
分 区 ， 调 小 并 行 度 ， 减 少 不 必 要 的 任务 的 开辟 与 销毁 的 消耗 ;而 当 任 务 耗 时 长 且 处 理 的 数据 
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量 大 时 ， 如 果 计 算 只 发 生 在 部 分 Executor 上 ， 我 们 常用 repartition0 重 新 分 区 ， 提 高 并 行 度 ， 
开辟 更 多 的 并 行 计 算 的 任务 来 完成 计算 。 

第 三 种 ， 在 对 RDD 进行 reduce 类 涉及 shuffle 操作 的 算 子 时 ， 这 些 算 子 大 都 可 以 接受 一 
个 显 式 指定 的 参数 ， 来 确定 新 产生 的 RDD 的 分 区 数 ， 我 们 可 以 显示 地 指定 这 类 参数 来 改变 
Shuffle 后 新 产生 的 RDD 的 分 区 数 ， 而 不 是 采用 系统 推导 出 的 默认 的 分 区 数 。 

第 四 种 ,也 可 以 配置 参数 spark.default.parallelism 来 设置 默认 的 并 行 度 。 该 参数 其 实 指定 
的 是 在 对 RDD 进行 reduce 类 涉及 Shuffle 操作 的 算 子 时 , 如 果 没 有 对 这 些 算 子 显 式 指定 参数 ， 
来 确定 新 产生 的 RDD 的 分 区 数 时 ， 这 类 reduce 类 涉及 Shuffle 操作 的 算 子 产生 新 的 RDD 的 
paritition 数量 。 该 参数 也 指定 了 parallelize 等 没有 parent RDD 类 操作 的 算 子 所 产生 的 新 的 
RDD 的 分 区 数 。 

一 个 最 佳 实践 是 ， 并 行 度 设置 为 集群 的 总 的 CPU Cores 的 个 数 的 2 一 3 倍 ， 如 Executor 
的 总 CPU Core 数量 为 400 个 ， 那 么 设置 1000 个 Task 是 可 以 的 ， 此 时 可 以 充分 利用 Spark 
集群 的 资源 ; 每 个 分 区 的 大 小 在 128MB 左右 。 

需要 说 明 的 是 ， 通 过 以 上 方式 确定 了 任务 的 并 行 度 ， 就 确定 了 理论 上 能 够 并 行 执行 的 任 
务 的 数量 ， 而 实际 执行 时 真正 并 发 执行 的 任务 的 数量 还 要 受 应 用 分 配 到 的 实际 资源 数量 的 限 
制 ， 要 想 改变 应 用 程序 获得 的 资源 数目 ， 就 会 涉及 资源 参数 的 调 优 。 

















30.4 ”数据 倾 儿 解决 方案 之 三 : 使 用 随机 Key 实现 双重 聚合 


本 节 讲 解 使 用 随机 Key 实现 双重 聚合 。 首 先 讲解 什么 是 随机 Key 双重 聚合 , 接 下 来 讲解 
使 用 随机 Key 实现 双重 聚合 解决 数据 倾斜 的 适用 场景 分 析 、 原 理 分 析 、 案 例 实战 ， 以 及 使 用 
随机 Key 实现 双重 聚合 解决 数据 倾斜 注意 事项 等 内 容 。 


30.4.1 什么 是 随机 Key 双重 聚合 


随机 Key 双重 聚合 是 指 Spark 分 布 式 计算 对 RDD 调用 reduceByKey 各 算 子 进行 计算 ， 
使 用 对 Key 值 随机 数 前 绥 的 处 理 技巧 ， 对 Key 值 进行 二 次 聚合 。 

(1) 第 一 次 聚合 〈 局 部 聚合 ): 对 每 个 Key 值 加 上 一 个 随机 数 ， 执 行 第 一 次 reduceByKey 
聚合 操作 。 

(2) 第 二 次 聚合 〈 双 重 聚 合 ): 去 掉 Key 值 的 前 缘 随 机 数 ， 执 行 第 二 次 reduceByKey 聚 
合 ， 最 终 得 到 全 局 聚合 的 结果 。 





30.4.2 ”适用 场景 分 析 


随机 Key 适用 于 groupByKey、reduceByKey 等 算 子 操作 数据 时 某 些 Key 值 发 生 数 据 倾 
和 斜 的 情况 。 例 如 ， 电 商 广 告 点 击 系统 中 ， 如 果 根据 用 户 点 击 的 省 份 进行 汇聚 ， 原 来 的 Key 值 
是 省 份 ， 如 果 某 些 省 份 的 Value 值 特别 多 ， 发生 了 数据 倾斜 ,可 以 将 每 个 Key 拆 分 成 多 个 
Key,， 加 上 随机 数 前 级 将 Key 值 打 散 , 组 拼 成 random 省 份 的 新 的 Key 值 ， 调 用 reduceByKey 
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做 局 部 聚合 ， 然 后 再 将 random 前 级 去 掉 ， 形 成 的 Key 值 仍 为 省 份 ， 再 调用 reduceByKey， 
进行 全 局 聚合 。 














30.4.3 ”原理 剖析 


使 用 随机 Key 实现 双重 聚合 ， 解 决 数据 倾斜 原理 剖析 : 如 reduceByKey。 

假设 有 倾斜 的 Key， 我 们 给 所 有 的 Key 加 上 一 个 随机 数 ， 然 后 进行 reduceByKey 操作 ; 
此 时 同一 个 Key 会 有 不 同 的 随机 数 前 缀 ,进行 reduceByKey 操作 时 使 用 的 原来 的 一 个 非常 大 
的 倾斜 的 Key 就 分 而 治之 变 成 若干 个 更 小 的 Key, 不 过 , 此 时 的 结果 和 原来 不 一 样 , 怎么 办 ? 
进行 map 操作 。map 操作 的 目的 是 把 随机 数 前 缀 去 掉 , 然后 再 次 进行 reduceByKey 操作 ，( 当 
然 ， 可 以 再 次 做 随机 数 前 级 ) ， 这 样 就 可 以 把 原本 倾斜 的 Key 通过 分 而 治之 方案 分 散 开 ， 最 
后 再 进行 了 全 局 聚合 。 在 这 里 的 本 质 还 是 通过 改变 并 行 度 去 解决 数据 倾斜 的 问题 。 





30.4.4 ”案例 实战 


使 用 随机 Key 实现 双重 聚合 解决 数据 倾斜 案例 实战 : 我 们 看 一 个 reduceByKey(_+ ) 的 示 
例 。 假 设 RDD 不 同 ，Partition 的 数据 内 容 分 别 为 〈1，1) (1，2) (1，3) 以 及 (2, 1) 
(1，2) (1，3) ， 我 们 通过 map 操作 加 上 随机 数 ， 将 数据 转换 为 (1_1, 1) (2 1, 2) (3_1， 
3) 以 及 (1 2, 1) (2 _ 1, 2) (3 _1，3) ; 然后 进行 reduceByKey 的 累加 操作 ， 汇 聚 的 结果 
为 (11，1) (2 1, 4) 以 及 (3_1，6) (1 2，1) ， 之 后 通过 map 转换 去 掉 随 机 数 前 级 ， 
转换 为 (1，1) (1，4) 以 及 (1，6) (2，1) ， 再 进行 一 次 reduceByKey 操作 ， 转 换 成 (1， 
11) 以 及 (2,1)。 最 终 将 结果 输出 到 Output flel 、Output file2， 如 图 30-4 所 示 。 






































reduceByKey(_+ ) 
CIs LY (2, 1) 
(1, 2) (1, 2) 
(1, 3) (1, 3) 
上 map: 加 上 随机 数 前 缀 4 map: 加 上 随机 数 前 缀 
[+ 助 (12, 1) 
(ls 2 (2_1, 2) 
(31, 3) (3_1, 3) 
1 reduceByKey J reduceByKey 
[区 (3_1, 6) 
(21, 4) (Lz 从 
yy map :去 掉 随机 数 前 绕 了 map: 去 掉 随机 数 前 级 
(1, 1) (1, 6) 
(1, 4) (2, 1) 
| reduceByKey | reduceByKey 
1s: 1 (2,1) 
Output file1 Output file2 

















图 30-4 ”reduceByKey 操作 示意 图 
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30.4.5 注意 事项 


使 用 随机 Key 实现 双重 聚合 解决 数据 倾斜 方案 局 限于 单个 RDD 的 reduceByKey、 
groupByKey 等 算 子 。 如 果 两 个 RDD 的 数据 量 都 特别 大 ， 而 且 倾 斜 的 Key 特别 多 ， 就 无 法 采 
用 分 而 治之 进行 双重 聚合 的 方法 ， 我 们 须 综 合 应 用 各 种 数据 倾斜 的 解决 方案 ， 如 通过 扩容 进 
行 Join 操作 ， 解 决 数据 倾斜 问题 。 





30.5 ”数据 倾 儿 解决 方案 之 四 : 使 用 Mapper 端 进行 Join 操作 


本 节 讲 解 使 用 Mapper 端 进行 Join 操作 ， 首 先 讲解 为 什么 要 在 Mapper 端 进行 Join 操作 ， 
然后 讲解 使 用 Mapper 端 进行 Join 操作 解决 数据 倾斜 问题 的 使 用 场景 、 原 理 流程 、 案 例 实战 、 
注意 事项 等 内 容 。 


30.5.1 为 什么 要 在 Mapper 端 进行 Join 操作 


解决 数据 倾斜 有 一 个 技巧 ， 把 Reducer 端的 操作 变 成 Mapper 端的 Reduce， 通 过 这 种 方 
式 不 需要 发 生 Shuffle。 如 果 把 Reducer 端的 操作 放 在 Mapper 端 ， 就 避免 了 Shuffle。 避 免 了 
Shuffle, 在 很 大 程度 上 就 化 解 掉 了 数据 倾斜 的 问题 .Spark 是 RDD 的 链 式 操作 , DAGScheduler 
根据 RDD 的 不 同类 型 的 依赖 关系 划分 成 不 同 的 Stage， 所 谓 不 同类 型 的 依赖 关系 ， 就 是 宽 依 
赖 、 窒 依赖 。 当 发 生 宽 依赖 的 时 候 ， 把 Stage 划分 成 更 小 的 Stage。 划 分 的 依据 就 是 宽 依 赖 。 
宽 依 赖 的 算 子 如 reducByKey、groupByKey 等 。 我 们 想 做 的 是 把 宽 依赖 减 掉 ， 避 免 掉 Shuffle， 
把 操作 直接 发 生 在 Mapper 端 。 从 Stage 的 角度 讲 ， 后 面 的 Stage 都 是 前 面 Stage 的 Reducer 
端 ， 前面 的 Stage 都 是 后 面 Stage 的 Mapper 端 。 如 果 能 去 掉 Reducer 端的 Shuffle 操作 ， 将 其 
放 在 Mapper 端 ， 对 我 们 解决 数据 倾斜 很 有 价值 。Spark 2.0 版 本 中 就 有 Mapper 端 聚 合 ， 只 
Mapper 端 完成 Shuffle 的 业务 。 


30.5.2 ”适用 场景 分 析 
如 果 两 个 RDD 进行 操作 ， 其 中 一 个 RDD 数据 不 是 那么 多 ， 我 们 就 把 这 个 RDD 的 数据 


以 广播 变量 的 形式 包 右 起来， 广播 给 整个 Cluster 集群 ， 这 样 就 可 以 和 另外 一 个 RDD 进行 
map 操作 了 。 





30.5.3 ”原理 剖析 


进行 Join 操作 ，Join 就 有 Key-Value 的 方式 。 例 如 ， 在 广告 点 击 案例 中 ， 假 设 有 两 个 不 
同 的 Key 值 ，Key 值 等 于 1， 或 者 等 于 2; 这 里 有 两 个 RDD: RDD1 的 内 容 是 (1,1) (1,2) 
C13》 (2,1》 (22》 《23) 5 RDD2 的 内 容 是 (LIY》 (21) 。 

RDD1 和 RDD2 进行 Join 操作 ， 产 生 的 RDD3， 假设 这 里 有 两 个 Task， 因 为 这 里 有 两 个 
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Key， 那 产生 的 结果 是 Task1: 


(Ll DY CL (27 TY 天 生生 3 下 
1) ) (2, (2, 1) ) (2, (3，1) ) ， 如 图 30-5 所 示 。 


RDD1: 





(1,D) 
(1,2) 
(1,3) 
(2,1) 
(2,2) 


(1.1) 
(2,D) 


(2,3) 


RDD2: 


上 


RDD3: 





人 


Join 





Taskl: (1, (1, 1)) 
(1,02,1)) 
(1,G3,1)) 

Task2: (2, (1, 1)) 
(2,(2, 1)) 
(2.G3.1) 

















图 30-5 RDD 的 Join 示意 图 


在 Join 的 过 程 中 可 能 产生 数据 倾斜 。 图 30-5 是 一 个 比较 友好 的 例子 ，Key 比较 均衡 ， 没 
有 数据 倾斜 。 接 下 来 演示 一 下 数据 倾斜 的 例子 ， 假 设 Key 等 于 2 的 记录 现在 只 有 一 条 ， (2， 
(1,2) (1,3) (2,1) ; RDD2 的 内 容 是 


1) 。 那 么 在 两 个 RDD 中 ，RDD1 的 内 容 是 (1,1) 
(1,1) (2,1) ， 那 就 产生 数据 倾斜 


RDD1: 





(1,1) 
(1,2) 
(1,3) 
Q2,1) 


RDD2: 
(1,1) 
(2.1) 





a 
rs 


Join 











算 子 ， 读 取 分 区 中 的 一 批 数据 过 


= ls 


， 如 图 30-6 所 示 。 


RDD3: 


Taskl: (1, (1, 1)) 
(1,(2,1)) 
(1,G,1) 


Task2: (2, (1, 1)) 


图 30-6 RDD 的 数据 倾斜 示意 图 

在 这 种 情况 下 会 产生 数据 倾斜 ， 那 我 们 对 RDD1、RDD2 如 何 进行 处 理 呢 ? RDD1 仍然 
是 RDD1， 但 RDD2 此 时 有 一 个 变化 ，RDD2 进行 Broadcast 变 成 广播 变量 ，Broadcast 是 进 
程 级 别 的 ，Broadcast 将 RDD2 的 数据 (1,1) (2,1) 广播 出 去 。 将 数据 (1,1) (2,1) 广播 后 ， 
如 何 完成 Join 的 业务 逻辑 操作 ? Join 操作 是 对 Key 相同 的 Value 六 
出 去 以 后 ,没有 进行 Shuftle， 数 据 被 BlockManager 管理 ， 在 Executor 中 都 有 Broadcast 的 数 
据 。Join 的 业务 逻辑 通过 对 RDD1 进行 map 操作 实现 ， 遍 历 Broadcast 中 的 值 ， 然 后 变 成 一 
个 Tuple。Map 操作 是 一 条 记录 一 条 记录 地 读 取 数 据 ,如 进行 性 能 优化 , 可 以 使 用 mapPartitions 




















行 转换 ， 如 图 30-7 所 示 。 


行 Join， 这 里 将 数据 广播 
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RDD1: 
RDD1: Cl) 
(1,2) 
mapPartitions a RE 
Task1: (1, (1, 1)) 
CQ2.1) (02. 0) 
Join (1.(3. 1)) 
BlockManager 
RDD2 Task2: (2, (1, 1)) 
(1,1) 
(2, 1) 















Broadcast 
(1,1) 
(2,1) 





图 30-7 ”Broadcast 方式 、Join 方式 


30.5.4 ”案例 实战 


Join 的 时 候 ，RDD1 Join RDD2， 如 将 Join 去 掉 ， 可 以 将 数据 量 小 的 部 分 做 成 Broadcast， 
在 RDDI1 不 同 的 Task 中 ， 通 过 mapPartitions 的 方式 每 次 读 取 一 个 Partitions 的 数据 ， 在 内 音 
遍历 mapPartitions 里 面 的 元 素 ， 和 Broadcast 里 面 的 元 素 进行 Key 的 比较 ， 如 果 Key 相同 ， 
就 将 它们 的 Value 变 成 一 个 Tuple， 依 次 循环 ， 这 是 效率 比较 高 的 情况 。 


30.5.5 ”注意 事项 


如 果 Broadcast 里 面 的 内 容 比较 大 ， 可 能 会 发 生 内 存 溢出 ， 同 时 GC 也 会 非常 麻烦 ， 因 为 
广播 的 数据 是 常 驻 在 内 存 中 的 ， 很 容易 变 成 老年 代 。 这 时 如 进行 GC， 是 非常 致命 的 。 如 果 
有 一 张 小 表 ， 可 以 进行 Broadcast; 如 果 要 做 一 些 配 置 文件 的 发 布 ， 也 可 以 采用 Broadcast， 因 
为 Broadcast 是 进程 级 别 的 ， 节 省 内 存 而 且 非 常安 全 。 在 这 些 情况 下 ，Broadcast 方式 非常 有 
效 ， 但 不 适用 于 两 个 RDD 的 数据 量 都 非常 大 的 情况 ， 所 以 这 个 方式 不 是 万 能 的 。 

如 果 代 表 两 个 数据 来 源 的 RDD 都 非常 大 ， 那 肯定 不 能 进行 Broadcast， 数 据 倾斜 采样 的 
思路 是 采样 出 两 个 RDD 的 每 个 RDD 中 哪些 Key 出 现 的 几率 比较 大 , 或 者 次 数 比 较 多 , 然后 
基于 Key 值 ， 将 数据 独立 抽取 出 来 ， 进 行 Join 操作 ， 进 行 数据 规模 上 的 改变 。 利 用 Map 操 
作 增 加 或 减少 数据 的 规模 。 经 过 过 滤 以 后 , 原来 的 两 个 RDD 变 成 4 个 RDD, 剩 下 的 两 个 RDD 
进行 Join 操作 ， 然 后 进行 Union 操作 。 











30.6 ”数据 倾斜 解决 方案 之 五 : 对 倾斜 的 Keys 采样 后 进行 
单独 的 Join 操作 


本 节 首 先 讲解 为 什么 对 倾斜 的 Keys 采样 进行 单独 的 Join 操作 ， 然 后 讲解 如 何 对 倾斜 的 
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Keys 进行 采样 , 最 后 讲解 对 倾斜 的 Keys 采样 后 进行 单独 的 Join 操作 的 使 用 场景 、 案例 实战 、 
注意 事项 等 内 容 。 


30.6.1 为 什么 对 倾斜 的 Keys 采样 后 进行 单独 的 Join 操作 


本 节 采 用 采样 算法 的 思想 来 解决 数据 倾斜 。 数 据 倾斜 的 时 候 如 果 能 把 Join 的 方式 去 除 ， 
在 Mapper 端 就 能 完成 Join 的 操作 ， 这 是 最 好 的 ， 但 有 一 个 前 提 条 件 : 要 进行 Join 的 RDD， 
其 中 有 一 个 RDD 的 数据 比较 少 。 而 在 实际 的 生产 环境 下 ， 有 时 不 具备 这 样 的 前 提 条 件 ， 如 
果 两 个 RDD 的 数据 都 比较 多 ， 我 们 将 尝试 采取 进一步 的 做 法 来 解决 这 个 问题 。 

首先 我 们 谈 采 样 。 采 样 是 有 一 个 数据 的 全 量 ， 假 如 有 100 亿 条 数据 ， 采 取 一 个 规则 来 选 
取 100 亿 条 数据 中 的 一 部 分 数据 ， 如 5%、10%、15%， 采 样 通常 不 可 能 超过 30% 的 数据 。 采 
样 算法 的 优 劣 决定 了 采样 的 效果 。 所 谓 采 样 的 效果 ， 即 我 们 采样 的 结果 能 和 否 代表 全 局 的 数据 
(100 亿 条 数据 ) 。 在 Spark 中 ， 我 们 可 以 直接 采用 采样 算法 Sample。 采 样 算法 对 解决 数据 
倾斜 的 作用 : 数据 产生 数据 倾斜 是 由 于 某 个 Key 或 者 某 几 个 Key， 数 据 的 Value 特别 多 ， 进 
行 Shuffle 的 时 候 ，Key 是 进行 数据 分 类 的 依据 。 如 果 能 够 精准 地 找 出 是 哪个 Key 或 者 哪 
几 个 Key 导致 了 数据 倾斜 ， 这 是 解决 问题 的 第 一 步 : 找 出 谁 导致 数据 倾斜 ， 就 可 以 进行 分 而 
治之 。 


30.6.2 ”如 何 对 倾斜 的 Keys 进行 采样 


例如 ，RDD1 和 RDD2 进行 Join 操作 ， 我 们 采用 采样 的 方式 发 现 RDD1 中 有 严重 的 数据 
倾斜 的 Key。 

第 一 步 : 采用 Spark RDD 中 提供 的 采样 接口 ， 可 以 很 方便 地 对 全 体 (如 100 亿 条 ) 数据 
进行 采样 ， 然 后 基于 采样 的 数据 可 以 计算 出 哪个 〈 哪 些 ) Key 的 Values 个 数 最 多 。 

第 二 步 : 把 全 体 数据 分 成 两 部 分 ， 即 把 原来 的 一 个 RDD1 变 成 RDD11 和 RDD12， 其 中 
RDD11 代表 导致 数据 倾斜 的 Key，RDD12 中 包含 的 是 不 会 产生 数据 倾斜 的 Key。 

第 三 步 : 把 RDD11 和 RDD2 进行 Join 操作 ， 且 把 RDD12 和 RDD2 进行 Join 操作 ， 然 
后 把 Join 操作 后 的 结果 进行 Union 操作 ， 从 而 得 出 和 RDD1 与 RDD2 直接 进行 Join 相同 的 
结果 。 

这 样 就 解决 了 数据 倾斜 的 问题 : RDD12 和 RDD2 进行 Join 操作 不 会 产生 数据 倾斜 ， 
为 里 面 没 有 特别 的 Key, 即 没有 哪个 Key 的 Value 特别 多 ; RDD11 和 RDD2 进行 Join 操作 ， 
假设 RDD11 中 只 有 一 个 Key， 其 Key 值 的 Value 特别 多 ， 利 用 Spark Core 天 然 的 并 行 机 制 
对 RDD11 的 Key 的 数据 进行 拆 分 。 


30.6.3 ”适用 场景 分 析 
两 个 RDD 进行 Join 操作 , 如 果 一 个 RDD 有 严重 的 数据 倾斜 ， 那 我 们 可 以 通过 采样 的 方 


式 发 现 RDD1 中 有 严重 的 数据 倾斜 的 Key， 然 后 将 原来 一 个 RDD1 拆 分 成 RDD11 (产生 倾 
斜 Key 的 数据 ) 和 RDD12 (不 产生 倾斜 Key 的 数据 ) ， 把 RDD11、RDD12 分 别 和 RDD2 
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进行 Join 操作 , 然后 把 Join 操作 后 的 结果 进行 Union 操作 。 此 外 , 倾斜 的 Key 也 可 加 上 随机 
数 处 理 。 


30.6.4 ”案例 实战 


例如 ，RDD1 中 的 元 素 (1, 1) (1, 2) (1, 3) (2，1) ， 其 中 Key 值 等 于 1 的 Value 
值 特别 多 ; RDD2 中 的 元 素 (1，1) (2，1) 。 思 路 是 : 将 RDD1 拆 分 成 2 份 ，RDD1 变 成 
了 两 个 RDD， 即 RDD11、RDD12; RDD11 的 元 素 为 (1, 1) (1, 2) (1，3) ，RDD12 
的 元 素 为 (2，1) 。 然 后 ，RDD11、RDD12 分 别 和 RDD2 进行 Join，Join 以 后 产生 Resultl、 
Result2 两 个 结果 。Resultl 的 元 素 为 (1， (1，1) ， (1， (2，1) ) ， (1， (3，1) ) ; 





Result2 的 元 素 为 (2，(1, 1) ) ; 然后 Resultl1、Result2 进行 Union 操作 , 最 终结 果 FinalResult: 
El Cl ds Rb CE YY 8 折 示 
RDDI1: 






Result2: 
(1,(1,1)) 
(1,@, 1)) 
(1,03, 1)) 


(1,1) 
(1,2) 
(1.3) 
(2, 1) 




















ROO, FinalResult: 
Cll) Result?: CD) 
(1,2) (2,1) CD) FE C1) 
(1,3) (1.G, 0) 
(2,(1,1)) 
































图 30-8 分 而 治之 解决 数据 倾斜 


为 什么 这 样 做 缓解 了 数据 倾斜 的 问题 : 将 RDD1 一 分 为 二 ， 将 数据 单独 和 RDD2 进行 
Join， 基 本 上 就 不 会 产生 Shuffle， 这 是 Spark 本 身 的 机 制 保证 的 。RDD11 中 只 有 一 个 Key， 
和 RDD2 进行 Join 操作 ，RDD2 中 有 若干 个 Key。 

这 时 有 两 种 情况 。 

第 一 种 情况 : 如 果 RDD11 中 的 数据 量 不 是 很 多 ， 可 以 采用 广播 的 方式 ， 把 Reducer 端 操 
作 放 在 Mapper 端 ， 采 用 Mapper 端的 Join 操作 ， 避 免 了 Shuffle 和 数据 倾斜 。 

第 二 种 情况 : 如果 RDD11 中 的 数据 量 特别 多 ， 此 时 之 所 以 能 够 缓解 数据 倾斜 ， 是 因为 
采用 了 Spark Core 天 然 的 并 行 机 制 对 RDD11 中 的 同样 一 个 Key 的 数据 进行 了 拆 分 ， 从 而 达 
到 让 原本 倾斜 的 Key 分 散 到 不 同 的 Task 的 目的 ， 就 缓解 了 数据 倾斜 。 














30.6.5 ”注意 事项 








对 倾斜 的 Keys 采样 进行 单独 的 Join 操作 步骤 有 点 复杂 : 首先 对 RDD1 进行 采样 ， 例 如 
RDD1 进行 Sample 抽样 〈15%) 可 以 计算 出 一 个 结果 ， 其 是 一 个 RDD， 采 样 之 后 进行 Map 
操作 ， 通 过 reduceBykey 操作 计数 ， 然 后 对 Key 和 Value 进行 置换 ， 通 过 SortByKey 进行 排 
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序 ， 再 进行 Map 置换 操作 ， 从 而 找 出 哪 一 个 Key 值 倾斜 比较 严 如 
RDD11 中 ， 剩 下 的 提取 到 RDD12 中 。 

如 果 倾 斜 的 Key 特别 多 ， 如 50 多 个 倾斜 的 Key， 我 们 可 以 一 个 一 个 地 对 Key 进行 过 滤 
处 理 。 

如 果 导 致 倾斜 的 Key 特别 多 ， 如 成 干 上 万 个 Key 都 导致 数据 倾斜 ,那么 这 种 方式 也 不 
适合 。 





tf 哪 


， 对 其 进行 过 滤 ， 提 取 到 


30.7 ”数据 倾斜 解决 方案 之 六 : 使 用 随机 数 进行 Join 


本 节 讲 解 如 何 使 用 随机 数 ， 使 用 随机 数 进行 Join 来 解决 数据 倾斜 问题 使 用 场景 、 案 例 实 
战 、 注 意 事 项 等 内 容 。 


30.7.1 如 何 使 用 随机 数 


倾斜 的 Key 加 上 随机 数 ， 对 Key 进行 Map 操作 加 上 随机 数 ， 计 算出 结果 以 后 再 次 进行 
Map， 将 随机 数 去 掉 ， 这 样 计算 得 到 的 结果 和 原先 不 加 随机 数 的 结果 是 一 样 的 ， 好 处 是 可 以 
控制 并 行 度 。 

随机 数 的 使 用 如 下 : 

(1) 对 RDD1 使 用 mapToPair 算 子 进行 转换 ,使 用 Random random = new Random/(); 构 建 
一 个 随机 数 ， 例 如 ， 任 意 一 个 100 以 内 的 随机 数 random.nextInt(100)， 将 其 赋值 给 prefix; 然 
后 将 prefix 加 上 原来 的 Key 值 组 拼 成 新 的 Key 值 : prefix_Key。 

(2) 对 RDD2 中 使 用 mapToPair 算 子 进行 转换 ， 对 于 RDD1 相同 的 Key 值 ， 同 样 构建 随 
机 数 及 加 上 前 级 ， 将 prefix 加 上 原来 的 Key 值 组 拼 成 新 的 Key 值 : prefix_Key。 

(3) RDD1 和 RDD2 根据 prefix_Key 进行 Join。 

(4) RDD1 和 RDD2 进行 Join 的 结果 再 次 通过 Map 算 子 进行 转换 ， 去 掉 随 机 数 ， 得 到 最 
终 计 算 结 果 。 


30.7.2 ”适用 场景 分 析 


两 个 RDD 中 的 某 一 个 Key 或 者 某 几 个 Key 值 的 数据 量 特别 大 ,在 进行 Join 的 时 候 发 生 
了 数据 倾斜 。 我 们 可 以 将 RDD1 中 一 个 或 者 几 个 Key 值 加 上 随机 数 前 级 , 然后 RDD2 中 的 相 
同 的 Key 值 也 做 同样 的 处 理 ， 加 上 随机 数 的 前 级 。Key 值 加 上 随机 数 进 行 Join 来 解决 数据 倾 
斜 问题 。 





30.7.3 ”案例 实战 


使 用 随机 数 进行 Join 来 解决 数据 倾斜 问题 案例 实战 : 加 上 随机 数 ， 并 行 Task 数量 可 能 
增加 。 
例如 ，RDD1 中 的 元 素 (1，1) (1, 2) (1, 3) (2，1) ， 其 中 Key 值 等 于 1 的 Value 
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值 特别 多 ; RDD2 中 的 元 素 (1，1) (2，1) 。 我 们 先 将 RDD1 拆 分 成 2 份 ，RDD1 变 成 了 
两 个 RDD， 即 RDD11、RDD12; RDD11 中 的 元 素 为 (1, 1) (1, 2) (1, 3)，RDD12 
中 的 元 素 为 (2，1) 。 

如 果 RDD11 和 RDD2 的 数据 规模 特别 大 ， 可 以 将 RDD11 中 的 倾斜 的 Key 加 上 1000 以 
内 的 随机 数 ， 这 时 能 直接 和 RDD2 进行 Join 操作 ? 不 行 ! 此 时 我 们 一 定 需要 把 RDD11 中 的 
Key 在 RDD2 中 的 相同 的 Key 加 上 1000 以 内 的 随机 数 ， 然 后 再 进行 Join 操作 ， 这 样 做 的 好 
处 : 让 倾斜 的 Key 更 加 不 倾斜 ， 在 实际 生产 环境 下 会 极 大 地 解决 在 两 个 进行 Join 的 RDD 数 
量 都 很 大 且 其 中 一 个 RDD 有 一 个 或 者 两 三 个 明显 倾斜 的 Key 的 情况 下 的 数据 倾斜 问题 。 


30.7.4 注意 事项 


使 用 随机 数 进 行 Join 来 解决 数据 倾斜 问题 案例 实战 : 其 中 ， 随 机 数 须 选取 合适 的 数值 ， 
我 们 对 RDD1 和 RDD2 中 相同 的 Key 值 加 上 随机 数 ， 加 上 随机 数 须 确保 RDD1 和 了 RDD2 的 
新 的 Key 值 prefix Key 在 RDD1 和 RDD2 中 都 能 匹配 上 , 随机 数 的 具体 数值 根据 数据 规模 
来 设置 。 

如 果 两 个 RDD 数据 都 特别 多 且 倾 斜 的 Key 有 成 千 上 万 个 ， 仅 仅 使 用 随机 数 进行 Join 来 
解决 数据 倾斜 问题 并 不 适用 。 我 们 可 以 考虑 进行 数据 扩容 ， 将 其 中 一 个 RDD 的 数据 进行 扩 
容 售后 再 加 上 前 级 n， 另 外 一 个 RDD 的 每 条 数据 都 打上 一 个 n 以 内 的 随机 前 级 ， 最 后 将 
两 个 处 理 后 的 RDD 进行 Join。 


30.8 ”数据 倾斜 解决 方案 之 七 : 通过 扩容 进行 Join 


本 节 讲 解 如 何 进 行 扩容 , 通过 扩容 进行 Join 操作 解决 数据 倾斜 问题 使 用 场景 、 案 例 实战 、 
注意 事项 等 内 容 。 


30.8.1 如 何 进 行 扩容 


两 个 RDD 数据 都 特别 多 且 倾 斜 的 Key 有 成 和 二 上 万 个 ， 该 如 何 解 决 数据 倾斜 的 问题 ? 初 
步 的 想法 :在 倾斜 的 Key 上 加 上 随机 数 。 该 想法 的 原因 : Shuffle 的 时 候 把 Key 的 数据 可 
以 分 到 不 同 的 Task 里 。 加 随机 数 有 一 个 前 提 : 必须 知道 哪些 是 倾斜 的 Key。 但 是 , 现在 的 倾 
和 斜 的 Key 非常 多 ， 成 千 上 万 ， 所 以 如 果 说 采样 找 出 倾斜 的 Key 的 话 ， 并 不 是 一 个 非常 好 的 
想法 。 

下 一 个 想法 是 考虑 进行 扩容 : 首先 ， 什 么 是 扩容 ? 扩容 就 是 把 该 RDD 中 的 每 条 数据 
变 成 5 条 、10 条 、20 条 等 。 例 如 ，RDD 中 原来 是 10 亿 条 数据 ， 扩 容 后 可 能 变 成 1000 亿 条 

其 次 ,如何 扩容 ? flatMap 中 对 要 进行 扩容 的 每 条 数据 都 通过 0 一 N-1 个 不 同 的 前 级 变 成 
六 条 数据 。 

问题 : 的 值 可 以 随便 取 吗 ? 需要 考虑 当前 程序 能 够 使 用 的 Core 的 数目 。 

答案 : 入 的 数字 一 般 不 能 取得 特别 大 ， 通 常 都 会 小 于 50， 和 否则 对 磁盘 、 内 存 和 网 络 都 会 
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形成 极 大 的 负担 ， 如 会 造成 OOM。 

接 下 来 : 

(1) 将 另外 一 个 RDD 的 每 条 数据 都 打上 一 个 n 以 内 的 随机 前 级 。 

(2) 最 后 将 两 个 处 理 后 的 RDD 进行 Join 即 可 。 

六 这 个 数字 取 成 10 和 取 成 1000 除了 OOM 等 不 同 外 ， 是 否 还 有 其 他 影响 呢 ? 

其 实 ，N 的 数字 的 大 小 还 会 对 数据 倾斜 的 解决 程度 构成 直接 影响 ! N 越 大 ， 越 不 容易 倾 
斜 ， 但 是 也 会 占用 更 多 的 内 存 、 磁 盘 、 网 络 以 及 消耗 更 多 的 CPU 时 间 。 














30.8.2 ”适用 场景 分 析 


如 果 两 个 RDD 数据 特别 多 ， 而 且 倾斜 的 Key 成 千 上 万 个 ， 则 我 们 可 以 考虑 进行 数据 扩 
容 , 将 其 中 一 个 RDD 的 数据 进行 扩容 Y 倍 ,另外 一 个 RDD 的 每 条 数据 都 打上 一 个 n 以 内 的 
随机 前 级 ， 最 后 将 两 个 处 理 后 的 RDD 进行 Join。 


30.8.3 ”案例 实战 


通过 扩容 进行 Join 操作 解决 数据 倾斜 问题 :RDD1 和 RDD2 进行 Join 操作 ,我 们 对 RDD2 
进行 flatMap 操作 ， 由 于 n 越 大 ,就 越 容易 造成 OOM, 假设 n 等 于 1000， 分 配 到 不 同 的 Task 
中 ， 数 据 规 模 变 大 ， 就 容易 OOM， 因 此 n 的 数字 不 能 取得 特别 大 。 这 里 假设 n 等 于 10， 循 
环 遍历 n， 对 item 加 上 前 级 i; 然后 对 RDD1 进行 map 操作 ， 加 上 10 以 内 的 随机 数 前 级 。 最 
后 将 RDD11 和 RDD22 进行 Join， 对 result 进行 Map 操作 去 掉 前 级 ， 得 到 结果 。 

示例 代码 如 下 。 
RDD1 join RDD2 
rdd2 2= RDD2.flatMap { 
Lor to LO 


1_ item 


} 


ER 

区 

好 

4 

3 

6: 
ee: 
8 

9 rddll = RDD]1 .map{ 
10 
1 


Random (10) 
2 random item 
3< 
4 
5. 
16. result = rddl11.join (rdd22) 
75 
18. result.map{ 
Toe item 1.split ”去 掉 前 级 
20. 
ZE 


30.8.4 注意 事项 





n 的 值 可 以 随便 定 吗 ? 需要 考虑 当前 程序 能 够 使 用 的 Core 的 数目 ， 扩 容 的 问题 是 来 解 
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决 从 程序 运行 不 了 的 问题 ， 从 无 法 运行 到 能 运行 的 结果 。 因 为 扩容 想 把 小 规模 数据 变 成 大 规 
模 数 据 ， 结 果 是 对 机 器 的 内 存 和 CPU 造成 很 大 的 消耗 。 该 方案 更 多 的 是 缓解 数据 倾斜 ， 而 
不 是 彻底 避免 数据 倾斜 ， 而 且 需 要 对 整个 RDD 进行 扩容 ， 对 内 存 资源 要 求 很 高 。 


30.9 ”结合 电影 点 评 系 统 进行 数据 倾斜 解决 方案 的 小 结 


在 Spark 商业 案例 之 大 数据 电影 点 评 系统 应 用 案例 中 ,我 们 通过 RDD、DataFrame、DataSet 
等 各 种 方式 综合 实现 大 数据 电影 点 评 系统 的 功能 。 结 合 本 章节 Spark 性 能 调 优 数 据 倾斜 解决 
方案 ， 我 们 可 以 对 电影 点 评 系统 应 用 进行 性 能 调 优 。 

(1) 电影 点 评 源 数据 进行 ETL 预 处 理 。 例 如 ，TL 最 受 不 同年 龄 段 人 员 欢 迎 的 电影 TopN 
中 ， 不 同年 龄 阶段 如 何 界定 ， 这 个 问题 其 实 是 业务 问题 ， 实 际 在 实现 的 时 候 可 以 使 用 RDD 
的 filter 算 子 ， 对 于 13 < age <18 的 计算 ， 因 为 要 进行 全 量 扫描 ， 所 以 会 非常 耗 性 能 。 一 般 情 
况 下 ， 我 们 都 是 在 原始 数据 中 直接 对 要 进行 分 组 的 年 龄 段 提前 进行 好 ETL, 根据 不 同年 龄 预 
先 计算 出 年 龄 范围 的 特征 值 。 通 过 提前 的 ETL 把 计算 发 生 在 Spark 业务 逻辑 运行 前 ， 用 空间 
换 时 间 。 当 然 ， 这 些 实现 也 可 以 用 Hive， 因 为 Hive 语法 支持 非常 强悍 且 内 置 了 最 多 的 函数 。 

(2) 电影 点 评 系统 使 用 Mapper 端 进行 Join 操作 。 在 电影 点 评 系统 中 使 用 Mapjoin， 原 
是 目标 用 户 targetUsers 数据 只 有 用 户 UserID， 数 据 量 一 般 不 会 太 多 。Mapjoin 实行 借助 于 
播 变量 Broadcast, 把 数据 广播 到 Executor 级 别 , 让 该 Executor 上 的 所 有 任务 共享 该 唯一 的 数 
据 , 而 不 是 每 次 运行 Task 的 时 候 都 要 发 送 一 份 数据 的 复制 , 这 显著 降低 了 网 络 数据 的 传输 和 
JVM 内 存 的 消耗 。 

最 后 ， 我 们 对 Spark 数据 倾斜 解决 方案 进行 整体 回顾 和 总 结 。 

(1) 数据 倾斜 运行 的 症状 和 危害。 如 果 发 现 数据 倾斜 ,往往 发 现 作 业 任 务 运行 特别 缓慢 ， 
出 现 OOM 内 存 溢 出 等 现象 。 

(2) 如 果 两 个 RDD 进行 操作 ， 其 中 一 个 RDD 数据 不 是 那么 多 ， 我 们 把 这 个 RDD 的 数 
据 以 广播 变量 的 形式 包 里 起 来 ， 广 播 给 整个 Cluster 集群 ， 这 样 就 可 以 和 另外 一 个 RDD 进行 
map 操作 。 

(3) 两 个 RDD 进行 Join 操作 ， 如 果 一 个 RDD 有 严重 的 数据 倾斜 ， 那 么 我 们 可 以 通过 采 
样 的 方式 发 现 RDD1 中 有 严重 的 数据 倾斜 的 Key, 然后 将 原来 一 个 RDD1 拆 分 成 RDD11 ( 产 
生 倾 斜 Key 的 数据 ) 和 RDD12 (不 产生 倾斜 Key 的 数据 ), 把 RDD11、RDD12 分 别 和 RDD2 
进行 Join 操作 , 然后 把 Join 操作 后 的 结果 进行 Union 操作 。 此 外 , 倾斜 的 Key 也 可 加 上 随机 
数 处 理 。 

(4) 如 果 两 个 RDD 数据 特别 多 ， 而 且 倾 斜 的 Key 成 千 上 万 个 ， 我 们 可 以 考虑 进行 数据 
扩容 , 将 其 中 一 个 RDD 的 数据 扩容 入 倍 , 另外 一 个 RDD 的 每 条 数据 都 打上 一 个 n 以 内 的 随 
机 前 级 ， 最 后 将 两 个 处 理 后 的 RDD 进行 Join。 

(5) 从 并 行 度 的 角度 考虑 : 

口 初级 级 别 的 并 行 度 解决 方案 : 例如 , reduceByKey 在 第 二 个 参数 中 指定 并 行 度 来 改善 

数据 倾斜 。 

口 进 阶级 别 的 并 行 度 解决 方案 : 以 reduceByKey 为 例 ， 在 原 有 数据 分 片 的 基础 上 加 上 

随机 数 前 级 ， 进 行 reduceByKey， 然 后 进行 map 操作 ， 去 掉 随 机 数 前 级 ， 再 次 进行 
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reduceByKey， 这 种 方式 很 有 效 。 

讲解 了 数据 倾斜 这 么 多 的 解决 方式 , 几乎 涵盖 了 数据 倾斜 方方面面 的 内 容 。 改变 并 行 度 、 
Key 值 加 上 随机 数 、 进 行 广播 变量 、 数 据 扩容 等 ， 都 是 类 似 的 解决 思路 ， 这 些 方案 是 否 足 以 
解决 数据 倾斜 的 问题 ? 作为 数据 倾斜 解决 方案 的 “ 银 弹 ”， 我 们 须 穷尽 一 下 解决 方案 ， 能 不 
将 数据 倾斜 消灭 在 问题 产生 以 前 ?Spark 是 处 理 数据 的 ， 在 处 理 数据 的 过 程 中 产生 了 数据 
倾斜 ， 由 于 数据 的 特征 导致 数据 倾斜 。 如 果 在 数据 来 源 的 根源 上 解决 了 数据 倾斜 ，Spark 本 
身 就 不 会 面临 数据 倾斜 的 问题 。 在 实际 生产 环境 中 ， 不 能 单一 地 考虑 Spark 本 身 的 问题 。 

逃离 Spark 技术 本 身 之 外 如 何 解决 数据 倾斜 的 问题 ? 

之 所 以 会 有 这 样 的 想法 ， 是 因为 从 结果 上 看 ， 数 据 倾斜 的 产生 来 自 于 数据 和 数据 的 处 理 
技术 ， 之 前 我 们 都 是 从 数据 的 技术 处 理 层面 考虑 如 何 解决 数据 倾斜 ,现在 我 们 需要 回 到 数据 
的 层面 去 解决 数据 倾斜 的 问题 。 

数据 本 身 就 是 Key-Value 的 存在 方式 。 所 谓 的 数据 倾斜 , 就 是 说 某 ( 几 ) 个 Key 的 Values 
特别 多 ， 如 果 要 解决 数据 倾斜 ， 实 质 上 是 解决 单一 的 Key 的 Values 的 个 数 特别 多 情况 ， 新 的 
的 数据 倾斜 解决 方案 由 此 诞生 了 。 

(1) 把 一 个 大 的 Key-Values 的 数据 分 解 成 为 Key-subKey-Values 的 方式 。 例 如 ， 数 据 原 
来 的 Key 值 是 ID，ID 下 面包 括 省 份 、 城 市 、 社 区 等 很 多 数据 ， 现 在 把 Key 变 成 ID+ 省 份 + 
城市 + 社区 的 方式 ， 这 样 就 把 原来 庞大 的 Value 的 集合 变 成 了 更 细 化 的 数据 。 

(2) 预先 和 其 他 表 进 行 Join， 将 数据 倾斜 提前 到 上 游 的 Hive ETL。 

(3) 可 以 把 大 的 Key-Values 中 的 Values 组 拼 成 为 一 个 字符 串 ， 从 而 形成 只 有 一 个 元 素 
的 Key-Value。 

(4) 加 一 个 中 间 适 配 层 ， 当 数据 进来 时 进行 Key 的 统计 和 动态 排名 ， 基 于 该 排名 动态 地 
调整 Key 分 布 ; 这 种 情况 表示 数据 倾斜 特别 严重 ， 此 时 可 以 使 用 内 存 级 别 的 数据 库 ， 不 断 统 
计 Key 值 并 进行 排名 ， 如 果 Key 值 特别 多 ， 可 以 对 Key 值 进行 调整 ， 如 触发 一 个 过 程 ， 将 
Key 值 加 上 一 个 时 间 惟 ， 以 时 间 为 考虑 因素 改变 Key 的 分 布 。 

(5) 假如 10 万 个 Key 都 发 生 了 数据 倾斜 ， 如 何 解决 呢 ? 此 时 一 般 是 加 内 存 和 Cores! 如 
出 现 OOM， 就 加 内 存 ， 如 运行 特别 慢 ， 就 加 Cores。 








*。1024。 


第 31 章 Spark 大 数据 性 能 调 优 实战 
专业 之 路 





E 要 讲解 如 下 内 容 。 

大 数据 性 能 调 优 的 本 质 和 Spark 性 能 调 优 要 点 分 析 。 

Spark 性 能 调 优 之 系统 资源 使 用 原理 和 调 优 最 佳 实践 。 

Spark 性 能 调 优 之 使 用 更 高 性 能 算 子 及 其 源码 剖析 。 

Spark 旧版 本 中 性 能 调 优 之 HashShuffle 剖析 及 调 优 。 

Shuffle 是 如 何 成 为 Spark 性 能 杀手 的 及 调 优 点 思考 。 

Spark Hash Shuffle 源码 解读 与 剖析 。 

Sort-Based Shuffle 产生 的 内 幕 及 其 tungsten-sort 背景 解密 。 
Spark Shuffle 令 人 费解 的 6 大 经 典 问题 。 

Spark Sort-Based Shuffle 排序 具体 实现 内 幕 和 源码 详解 。 

Spark 1.6.X 以 前 Shuffle 中 JVM 内 存 使 用 及 配置 内 幕 详情 。 
Spark 2.2.X 中 Shuffle 中 内 存 管理 源码 解密 : Static Memory 和 Unified Memory。 
Spark 2.2.X 中 Shuffle 中 JVM Unified Memory 内 幕 详情 。 
Spark 2.2X 中 Shuffle 下 Task 视角 内 存 分 配 管理 。 

Spark 2.2.X 中 Shuffle 中 Mapper 端的 源码 实现 。 

Spark 2.2.X 中 Shuffle 中 SortShuffleWriter 排序 源码 内 幕 解密 。 
Spark 2.2.X 中 Sort Shuffle 中 TimSort 排序 源码 具体 实现 。 
Spark 2.2.X 中 Sort Shuffle 中 Reducer 端 源 码 内 幕 。 


基 
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31.1 大 数据 性 能 调 优 的 本 质 和 Spark 性 能 调 优 要 点 分 析 


我 们 谈 大 数据 性 能 调 优 ， 到 底 在 谈 什么， 它 的 本 质 是 什么 ， 以 及 Spark 在 性 能 调 优 部 分 
的 要 点 ， 这 几 点 在 进入 性 能 调 优 之 前 都 是 至 关 重 要 的 问题 ， 它 的 本 质 限制 了 我 们 调 优 到 底 要 
达到 一 个 什么 样 的 目标 ， 或 者 说 我 们 是 从 什么 本 源 上 进行 调 优 的 。 
Spark 官网 的 性 能 优化 指南 (http: /spark.apache.org/docs/latesttuninghtml) 包括 以 下 
内 容 。 
口 数据 序列 化 。 
口 内 存 调 优 。 
> 内存 管理 。 
> 内 存 消耗 。 
> 调整 数据 结构 。 
> 序列 化 RDD 存储 。 
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> ”垃圾 回收 。 
口 其 他 考量 点 : 
> 并行 度 。 
> 减少 任务 的 内 存 使 用 。 
> 广播 大 变量 。 
> 数据 本 地 性 。 
Spark 官网 性 能 优化 指南 的 内 容 是 冰山 一 角 ， 接 下 来 我 们 分 析 大 数据 性 能 调 优 的 本 质 和 
Spark 性 能 调 优 要 点 。 


1. 大 数据 性 能 调 优 的 本 质 


编程 的 时 候 发 现 一 个 惊人 的 规律 : 软件 是 不 存在 的 。 所 有 编程 高 手 级 别 的 人 无 论 做 什么 
类 型 的 编程 ， 最 终 思考 的 都 是 硬件 方面 的 问题 。 最 终 思 考 的 都 是 硬件 在 一 秒 、 一 毫秒 ， 甚 至 
一 纳 秒 到 底 是 如 何 运行 的 ， 并 且 基 于 此 进行 算法 实现 和 性 能 调 优 ! 最 后 都 回 到 了 硬件 。 

那么 ， 我 们 回归 到 问题 : 大 数据 性 能 调 优 的 本 质 是 什么 ? 答案 是 基于 硬件 的 调 优 ， 即 基 
于 CPU、Memory、LO(Disk/Network) 基 础 上 构建 算法 和 性 能 调 优 ! 无 论 是 Hadoop, 还 是 Spark， 
还 是 其 他 技术 ， 都 无 法 逃脱 。 

口 CPU: 计算 ; 

口 Memory: 存储 ; 

口 VO: 数据 交互 。 


2. Spark 性 能 调 优 要 点 


读者 可 以 讨论 一 下 Spark 在 哪些 方面 进行 调 优 : 并 行 度 、 压 缩 和 序列 化 、 数 据 倾斜 、JVM 
调 优 (如 JVM 数据 结构 优化 ) 、 内 存 调 优 (如 内 存 消耗 诊断 等 ) 、Task 性 能 调 优 (例如 包 
含 Mapper 和 Reducer 两 种 类 型 的 Task) 、Shuffle 网 络 调 优 (如 小 文件 合并 等 ) 、RDD 算 子 
调 优 〈 如 RDD 复 用 、RDD 自 定义 ) 、 数 据 本 地 性 、 容 错 调 优等 。 

但 忽略 了 一 个 非常 重要 的 东西 ， 大 数据 (Spark〉 系 统 最 怕 什 么 ? 

口 数据 不 在 本 地 (数据 不 在 内 存 中 ， 数 据 本 地 性 是 和 框架 技术 及 开发 者 紧密 相关 的 )。 

口 数据 倾斜 (这 是 分 布 式 系统 的 问题 ， 这 和 数据 的 业务 紧密 相关 ) 。 

所 以 ， 调 优 Spark 的 重点 肯定 是 从 数据 本 地 性 和 数据 倾斜 两 方面 入 手 ! 

参照 “基于 CPU、Memory、1O(Disk/Network) 基 础 上 构建 算法 和 性 能 调 优 ”的 思路 , Spark 
性 能 调 优 如 下 所 示 。 

(1) 资源 分 配 和 使 用 ， 你 能 够 申请 到 多 少 计 算 资 源 及 如 何 最 优化 地 使 用 计算 资源 。 

(2) 开发 调 优 : 如何 基 于 Spark 框架 内 核 原理 和 运行 机 制 最 优化 地 实现 代码 功能 。 

(3) Shuffle 调 优 : 分 布 式 系统 必然 面临 的 “杀手 级 别 ” 的 问题 。 

(4) 数据 倾斜 调 优 : 这 个 问题 的 本 质 是 分 布 式 系统 业务 本 身 有 数据 倾斜 ， 那么 在 我 们 现 
有 的 框架 上 该 如 何 调 优 呢 ? 有 一 套 完整 的 分 布 式 系统 数据 倾斜 调 优 的 解决 方案 。 

基本 上 来 讲 , 性 能 调 优 都 无 法 逃脱 CPU、Memory、 Disk IO、NetIO、JVM、Data Locality、 
Data Skew 等 。 
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31.2 Spark 性 能 调 优 之 系统 资源 使 用 原理 和 调 优 最 佳 实 践 


我 们 从 Spark 资源 的 角度 讲解 性 能 调 优 的 原因 ， 算 子 调 优 、Shuffle、 数 据 倾斜 等 实质 上 
都 涉及 资源 的 使 用 。 从 Spark 官网 (http: //spark.apache.org/docs/latest/cluster-overview.html) 
看 一 下 Spark 运行 架构 图 (图 31-1) 。 


Cluster Manager 


图 31-1 Spark 运行 架构 图 


从 程序 运行 的 角度 看 ，Spark 的 组 件 分 成 三 部 分 。 

口 Driver: 类 似 Linux 的 驱动 程序 ， 驱 动 程序 的 运行 。 

口 Executor: 有 具体 的 处 理 数据 的 部 分 。 

口 Cluster Manager: 资源 调度 器 。 

我 们 的 应 用 程序 运行 本 身 在 Driver、Executor 上 ， 运 行 的 时 候 需 要 从 Cluster Manager 中 
获取 资源 ，Cluster Manager 在 Spark 中 可 以 是 插 拔 的 ， 在 Spark 中 可 以 使 用 不 同 的 集群 资源 
管理 器 。 集 群 资源 管理 器 管理 内 在 和 CPU。 现 在 业界 比较 常用 的 、 经 典 的 资源 管理 器 是 Yarn 
和 Mesos， 国 内 大 部 分 使 用 的 是 Yam， 因 为 Spark 运作 在 Hadoop 上 ， 而 Hadoop 自 带 的 资源 
管理 器 是 Yam。 

在 实际 生产 环境 中 ，Cluster Manager 一 般 都 是 Yam 的 ResourceManager，Driver 会 向 
ResourceManager 申请 计算 资源 (一 般 情况 下 都 是 在 发 生计 算 前 一 次 性 申请 请 求 ) ， 分 配 的 
计算 资源 就 是 CPU、Cores 和 Memory， 我 们 的 具体 的 Job 的 Task 就 是 基于 这 些 分 配 的 内 存 
和 Cores 构建 的 线程 池 来 运行 Tasks 的 。 

当然 , 在 Task 运行 的 时 候 需要 消耗 内 存 ， 而 Task 又 分 为 Mapper 和 Reducer 两 种 不 同类 
型 的 Task， 也 就 是 ShuffleMapTask 和 ResultTask 两 种 类 型 。 

在 一 个 Task 运行 的 时 候 ， 在 Spark 1.6.X 以 前 版 本 中 默认 是 占用 Executor 内 存 的 20%， 
Shuffle 拉 取 数 据 和 进行 聚合 操作 等 占用 了 另外 20% 的 内 存 , 剩 下 60% 用 于 RDD 的 持久 化 ( 例 
如 ，Cache 数据 到 内 存 ) ，Task 在 运行 的 时 候 是 跑 在 Core 上 的 ， 比 较 理想 的 情况 是 有 足够 的 
Cores， 同 时 数据 分 布 比较 均匀 ， 这 时 往往 能 够 充分 利用 集群 的 资源 。 

核心 调 优 参数 如 下 。 

口 num-executors: 该 参数 一 定 会 被 设置 ，Yam 会 按照 Driver 的 申请 最 终 为 当前 的 
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Application 生产 指定 个 数 的 Executors。 实 际 生 产 环境 下 分 配 80 个 左右 的 Executors 
比较 合适 

口 executor-memory: 与 JVM OOM 紧密 相关 ,很 多 时 候 甚至 决定 了 Spark 运行 的 性 能 。 
实际 生产 环境 下 建议 8GB 左右 , 很 多 时 候 Spark 是 运行 在 Yam 的 , 内 存 占用 量 不 超 
过 Yam 的 内 存 资源 的 50%。 

口 executor-cores: 决定 了 在 Executor 中 能 够 并 行 执行 的 Task 的 个 数 。 实 际 生 产 环境 建 
议 4 个 左右 ,一般 情况 下 不 要 超过 Yam 队列 中 Cores 总 数 的 50%。 

口 driver-memory: 作为 驱动 ， 默 认 是 1GB， 老 师 在 生产 环境 下 都 设置 为 4GB。 

口 spark.default.parallelism: 建议 至 少 设置 为 100 个 ， 最 好 是 700 个 左右 。 

口 spark.storage.memoryFraction: 默认 占用 60%， 如 果 计算 比较 依赖 于 历史 数据 ， 则 可 
以 适当 调 高 该 参数 ， 但 是 如 果 计 算 严 重 依赖 于 Shuffle， 则 需要 降低 该 比例 。 

口 spark.shuffle memoryFraction: 默认 占用 20%， 如 果 计 算 严重 依赖 于 Shuffle， 则 需要 


提高 该 比例 。 
口 supervise: 配置 这 个 参数 ， 当 Driver 运行 在 Cluster 集群 ， 如 果 出 问题 了 ， 可 自动 重 
新 启动 。 


31.3 Spark 性 能 调 优 之 使 用 更 高 性 能 算 子 及 其 源码 剖析 


Spark 性 能 调 优 之 使 用 更 高 性 能 算 子 的 重要 性 在 于 : 同样 情况 下 ， 如 果 使 用 更 高 性 能 的 
算 子 ， 从 算 子 级 别 给 我 们 带 来 更 高 的 效率 。Spark 现在 主推 的 是 DataSet 这 个 API 接口 ， 越 来 
越 多 的 算 子 可 以 基于 DataSet 去 做 ，DataSet 基于 天 然 自 带 的 优化 引擎 ， 理 论 上 讲 比 RDD 的 
性 能 更 高 , DataSet 的 弱点 是 无 法 自 定 义 很 多 功能 。 从 平时 使 用 来 讲 , 使 用 的 最 基本 的 是 Shuffle 
的 算 子 。Shuffle 分 为 两 部 分 : Mapper 端 和 Reducer 端 。 性 能 调 优 的 准则 是 尽量 不 使 用 Shuffle 
类 的 算 子 ， 尽 量 避 免 Shuffle。 进 行 Shuffle 的 时 候 ， 将 多 个 节点 的 同一 个 Key 的 数据 汇聚 到 
同样 一 个 节点 进行 Shuffle 操作 ,基本 思路 是 将 数据 放 入 内 存 中 ， 阁 内 存 中 放 不 下 ,就 放 入 磁 
盘 中 。 

如 果 要 避免 Shuffle， 所 有 的 分 布 式 计算 框架 是 产生 Mapper 端的 Join， 两 个 RDD 进行 操 
作 ， 先 把 RDD 的 数据 收集 过 来 ， 然 后 通过 Spark Context 进行 BroadCast 广播 出 去 ， 假设 原 
先是 RDD1、RDD2, 我 们 把 RDD2 广播 出 去 ， 原来 是 进行 Join，Join 的 过 程 肯 定 是 进行 某 种 
计算 ， 此 时 RDD2 其 实 已 经 不 是 RDD 了 ， 就 是 一 个 数据 结构 体 包 硅 着 数据 本 身 ， 对 RDD1 
进行 Join 操作 ， 就 是 一 条 条 遍历 数据 跟 另 一 个 集合 里 的 数据 产生 某 种 算法 操作 。 

如 果 不 能 避免 Shufle， 我 们 退 而 求 其 次 ， 需 要 更 多 的 机 器 承担 Shuffle 的 工作 ， 充 分 利 
用 Mapper 端 和 Reducer 端 机 器 的 计算 资源 ,尽量 让 Mapper 端 承担 聚合 的 任务 。 如 果 在 Mapper 
端 进 行 Aggregate 的 操作 ， 在 Mapper 端的 进程 中 就 会 合并 相同 的 Key。 

(1) reduceByKey 和 aggregateByKey 取代 groupByKey。 

PairRDDFunctions.scala 的 aggregateByKey，aggregateByKey 算 子 使 用 给 定 的 组 合 函 数 和 
一 个 中 立 的 “ 零 值 ”聚合 每 个 Key 的 值 。 这 个 函数 可 以 返回 不 同 的 结果 类 型 U, 不 同 于 RDD 
的 值 的 类 型 V。 在 scala.TraversableOnce 中 , 我 们 需要 一 个 操作 将 V 合并 成 U 和 一 个 操作 合 
并 两 个 U， 前 者 的 操作 用 于 合并 分 区 内 的 值 ， 后 者 用 于 在 分 区 之 间 合 并 值 。 为 了 避免 内 存 分 
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配 ， 这 两 个 函数 都 允许 修改 和 返回 它们 的 第 一 个 参数 ， 而 不 是 创造 一 个 新 的 U。 
ageregateByKey 的 代码 如 下 。 


Fe def aggregateByKey[U: ClassTag] (zeroValue: U, partitioner: Partitioner) 
(seqop: (U, V) => U, 


2 combOp: (U, U) => U): RDD[(K，U)] = self.withScope { 

3 // 序 列 化 零 值 字 节 数组 ， 我 们 可 以 在 每 个 Key 值 进行 新 的 克隆 

val zeroBuffer = SparkEnv.get.serializer.newInstance() .serialize 
(zeroValue) 

二 val zeroArray = new Arrayl[Byte] (zeroBuffer.1imit) 

6 ZeroBuffer .get (zeroArray) 

Ws 

8 Lazy val cachedSerializer = SparkEnv.get.serializer.newInstance() 

9 . val createZero = () => cachedSerializer.deserialize[U] (ByteBuffer. 
wrap (zeroArray)) 

10. 

a //combinebykey 之 后 ， 进 行 清理 关闭 

二 val cleanedSeqOp = self.context.clean (seqOp) 

本 3 combineByKeyWithClassTag[U] ((v: V) => cleanedSeqOp (createZero(), Vv), 

14. cleanedSeqOp, combOp, partitioner) 

45°} 


例如 ,groupByKey 会 不 会 进行 Mapper 的 聚合 操作 呢 ? 不 会 。 groupByKey 重 载 函数 都 没 
有 指定 函数 操作 的 功能 。 相 对 于 groupByKey 而 言 ， 我 们 倾向 于 采用 reduceByKey 和 
aggregateByKey 来 取代 groupByKey， 因 为 groupByKey 不 会 进行 Mapper 端的 aggregate 的 操 
作 ， 所 有 数据 会 通过 网 络 传输 传 到 Reducer 端 ， 性 能 会 比较 差 。 而 我 们 进行 aggregateByKey 
的 时 候 ， 可 以 自 定义 Mapper 端的 操作 和 Reducer 端的 操作 ， 当 然 ，reduceByKey 和 
aggregateByKey 算 子 是 一 样 的 。 

PairRDDFunctions.scala 的 groupByKey 的 代码 如 下 。 


:本 def groupBYKey (Partitioner : Partitioner): RDD[(K, Iterable[V])] = 
self.withScope { 


2 //groupByKey 不 使 用 Mapper 端 聚合 ， 因 为 Mapper 端 聚合 不 汇聚 Shuffled 的 数据 ; 
// 要 求 所 有 Mapper 端的 数据 插入 到 哈 希 表 中 ， 导 致 生成 更 多 对 象 

3= val createCombiner = (v: V) => CompactBuffer (v) 

4- val mergeValue = (buf: CompactBuffer[V]，v: V) => buf += Vv 

val mergeCombiners = (cl: CompactBuffer[V], c2: CompactBuffer[V]) => 
cl i= C2 

[7 val bufs = combineByKeyWithClassTag [CompactBuffer[V]]( 

J createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine 

= false) 
Ba bufs.asInstanceOf [RDD[ (K, Iterable[V])]] 
a i 


reduceByKey 和 aggregateByKey 在 正常 情况 下 取代 groupByKey 的 两 个 问题 如 下 。 

口 groupByKey 可 进行 分 组 ，reduceByKey 和 aggregateByKey 怎么 进行 分 组 ?可 采用 算 
法 控制 。 

口 reduceByKey 和 aggregateBYKey 都 可 以 取代 groupByKey 。reduceByKey 和 
aggregateByKey 有 什么 区 别 ? 区 别 很 简单 ，aggregateByKey 给 予 我 们 更 多 的 控制 ， 
可 以 定义 Mapper 端的 aggregate 函数 和 Reducer 端的 aggregate 函数 。 
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(2) 批量 处 理 数 据 mapPartitions 算 子 取代 map 算 子 。 

我 们 看 一 下 RDD.scala 的 源码 ，RDD 在 处 理 一 块 又 一 块 的 写 数 据 的 时 候 ， 不 使 用 map 
算 子 ， 可 以 使 用 mapPartitions 算 子 ， 但 mapPartitions 有 一 个 次 端 ， 会 出 现 OOM 的 问题 ， 
为 每 次 处 理 掉 一 个 Partitions 的 数据 ， 对 JVM 也 是 一 个 负担 。 

RDD.scala 的 mapPartitions 的 代码 如 下 。 


1. def mapPartitions[U: ClassTag] ( 

2 f: Iterator [T] => Iterator[U]， 

全 preservesPartitioning: Boolean = false): RDD[IU] = withScope { 

a val cleanedF = sc.clean(f) 

Si new MapPartitionsRDD( 

Ga this, 

六 (context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF 
(iter), 

82 preservesPartitioning) 

的 } 


(3) 批量 数据 处 理 foreachPartition 取代 foreach。 
foreach 处 理 一 条 条 的 数据 ，foreachPartition 将 一 批 数据 写 入 数据 库 或 Hbase， 至 少 提升 
50% 的 性 能 。RDD.scala 的 foreachPartition foreach 的 源码 如 下 。 


def foreach(f: T => Unit): Unit = withScope { 

a val cleanF = sc.clean(f) 

sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF) ) 
4. } 

全 

G6. /7 

区 * RDD 的 每 个 分 区 应 用 这 个 函数 

0. */ 

9 def foreachPartition(f: Iterator[T] => Unit): Unit = withScope { 
TO val cleanF = sc.clean(f) 

Le sc.runJob(this, (iter: Iterator[T]) => cleanF (iter)) 

12c°0°0 


(4) 使 用 coalesce 算 子 整理 碎片 文件 。coalesce 默认 不 产生 Shuffle， 基 本 工作 机 制 把 更 
多 并 行 度 的 数据 变 成 更 少 的 并 行 度 。 例 如 , 10 000 个 并 行 度 的 数据 变 成 100 个 并 行 度 。coalesce 
算 子 返回 一 个 新 的 RDD， 汇聚 为 namPartitions 个 分 区 。 这 将 导致 一 个 窒 依 赖 。 例 如 ， 如 果 从 
1000 个 分 区 变 成 100 个 分 区 ， 将 不 会 产生 Shuffle， 而 不 是 从 当前 分 区 的 10 个 分 区 变 成 100 
个 新 分 区 。 然 而 ， 如 果 做 一 个 激烈 的 合并 ， 如 numpartitions = 1， 这 可 能 导致 计算 发 生 在 更 少 
的 节点 。〔 例 如 ， 设 置 numpartitions = 1， 将 在 一 个 节点 上 进行 计算 ) 。 为 了 避免 这 个 情况 ， 
可 以 设置 Shuffle = true。 这 将 增加 一 个 Shuffle 的 步骤 , 但 意味 着 当前 的 上 游 分 区 将 并 行 执行 。 
Shuffle = true， 可 以 汇聚 到 一 个 更 大 的 分 区 ， 对 于 少量 的 分 区 ， 这 是 有 用 的 ， 例 如 ，100 个 分 
区 ， 可 能 有 几 个 分 区 数据 非常 大 。 那 使 用 coalesce 算 子 合并 (1000，shuffle =true) ， 将 导致 
使 用 哈 希 分 区 器 将 数据 分 布 在 1000 个 分 区 。 注意 ， 可 选 的 分 区 coalescer 必须 是 可 序列 化 的 。 

RDD.scala 的 coalesce 算 子 代码 如 下 。 


;I def coalesce (numPartitions: Int, shuffle: Boolean = false, 
2 partitionCoalescer: Option[PartitionCoalescer] = Option.empty) 
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四 县 (implicit ord: Ordering[T] = null) 
2 : RDDIT] = withScope { 
i require (numPartitions > 0, s"Number of partitions (SnumPartitions) 


must be positive.") 


Gs if (shuffle) { 

yi /** 从 随机 分 区 开始 ， 将 元 素 均 匀 分 布 在 输出 分 区 上 */ 

8 val distributePartition = (index: Int, items: Iterator[T]) => { 
9. var position = (new Random(index)) .nextInt (numPartitions) 

JI05 items .map { 七 => 

3 // 注 意 ，Key 的 哈 希 代码 仅 对 Key 进行 ，HashPartitioner 将 它 与 总 分 区 数 进行 取 模 
32- position = Position + 1 

a (position, t) 

14. J 

ya Tterator[l(Tnt T)] 

16. 

四 // 包 括 一 个 Shuffle 步 又， 以 便 我 们 的 上 游 任务 仍然 是 分 布 式 的 

18- new CoalescedRDD( 

9 new ShuffledRDD[Int, T, T] (mapPartitionsWithIndex (distributePartition), 
0s new HashPartitioner (numPartitions)), 

2 numPartitions, 

2 partitionCoalescer) .values 

235 } else { 

24. new CoalescedRDD (this, numPartitions, partitionCoalescer) 

区 } 

a } 


从 最 优化 的 角度 讲 ， 使 用 coalesce 一 般 在 使 用 filter 算 子 之 后 。 因 为 filter 算 子 会 产生 数 
据 碎 片 ，Spark 的 并 行 度 会 从 上 游 传 到 下 游 , 我们 在 filter 算 子 之 后 一 般 会 使 用 coalesce 算 子 。 

(5) 使 用 repartition 算 子 , 其 背后 使 用 的 仍 是 coalesce。 但 是 ,Shuffle 值 默认 设置 为 true， 
repartition 算 子 会 产生 Shuffle。repartition 的 代码 如 下 。 


“加 def repartition (numPartitions: Int) (implicit ord: Ordering[T] = 
null): RDD[IT] = withScope { 

人 coalesce (numPartitions, shuffle = true) 

3 } 


(6) repartition 算 子 碎片 整理 以 后 会 进行 排序 ，Spark 官方 提供 了 一 个 repartition 
AndSortWithinPartitions 算 子 。JavaPairRDD 的 repartitionAndSortWithinPartitions 方法 的 代码 
如 下 。 


[EB def repartitionAndSortWithinPartitions (partitioner: Partitioner): 
JavaPairRDD[K, V] = { 
2 Val comp = com.google.common.collect.Ordering.natural () .asInstanceOf 
[Comparator [K]] 
3 repartitionAndSortWithinPartitions (partitioner, comp) 
} 


(7) persist: 数据 复 用 时 使 用 持久 化 算 子 。 


1. // 设 置 这 个 RDD 的 存储 级 别 ， 第 一 次 计算 以 后 持久 化 值 ， 如 果 RDD 没有 一 个 存储 级 别 ， 将 分 配 
// 一 个 新 的 存储 级 别 。 局 部 检查 点 是 一 个 例外 
2 def persist (newLevel: StorageLevel): this.type = { 
六 if (isLocallyCheckpointed) { 
4. ”// 之 前 称 为 localcheckpoint, 这 标记 RDD 已 经 持久 化 。 这 里 我 们 要 履 盖 重 写 旧 的 存储 级 别 ， 
// 这 是 由 用 户 明确 要 求 〈 使 用 磁盘 以 后 ) 的 
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Se persist (LocalRDDCheckpointData.transformStorageLevel (newLevel), 
allowOverride = true) 

7 } else { 

A persist (newLevel, allowOverride = false) 

8. } 

9. ) 


(8) mapPartitionsWithIndex 算 子 : 推荐 使 用 , 每 个 分 区 有 一 个 index, 实际 运行 时 看 RDD 
上 面 有 数字 ， 如 果 对 数字 感 兴趣 ， 可 以 使 用 mapPartitionsWithIndex 算 子 。 
mapPartitionsWithIndex 算 子 的 代码 如 下 : 


4 def mapPartitionsWithIndex[U: ClassTag]( 

六 f: (Int, Iterator[T]) => Iterator[U] ， 

于 preservesPartitioning: Boolean = false): RDD[U] = withScope { 

加 val cleanedF = sc-clean(f) 

new MapPartitionsRDD( 

5s this, 

Ls (context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF 
(index, iter), 

8. preservesPartitioning) 

} 


(9) 推荐 使 用 tree 开头 的 算 子 ， 如 treeReduce0 和 treeAggregrate()。 
treeReduce 的 源码 如 下 。 


A def treeReduce (f: (T, T) => T, depth: Int = 2): T = withScope { 


2 require (depth >= 1, s"Depth must be greater than or equal to 1 but got 
$depth.") 

3 val cleanF = context.clean (f) 

4 val reducePartition: Iterator[T] => Option[T] = iter => { 

下 if (iter.hasNext) { 

1 Some (iter.reduceLeft (cleanF)) 

y/ } else { 

8 None 

9 } 

10% } 

TEs val partiallyReduced = mapPartitions (it => Iterator (reducePartition 
(it))) 

32- val op: (Option[T], Option[T]) => Option[T] = (c, x) => { 

i 攻 演 if (c.isDefined && x.isDefined) { 

Ey Some (cleanF (c.get, x.get)) 

Eh } else if (c.isDefined) { 

16. > 

de } else if (x.isDefined) { 

EE x 

Es } else { 

20. None 

2 } 

Se 直 

2 和 5 演 partiallyReduced.treeAggregate (Option.empty[T]) (op, op, depth) 

2 罗 -getOrE]se (throw new UnsupportedOperationException ("empty collection")) 

2 } 

treeAggregate 算 子 的 源码 如 下 。 

本 def treeAggregate[U: ClassTag] (zeroValue: U) ( 

2 seqopy oA EU 
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有 combop: (0D，UD) => U, 

4. depth: Int = 2): U = withScope { 

总 < require (depth >= 1, s"Depth must be greater than or equal to 1 but got 

$depth.") 

6 if (partitions.length == 0) { 

yh Utils.clone (zeroValue, context.env.closureSerializer.newInstance()) 

全 } else { 

9. Val cleanSeqOp = context.clean (seqOp) 

10. Val cleanCombOp = context.clean (combOp) 

J val aggregatePartition = 

亲人 (it: Iterator [T]) => 让 .aggregate (ZeroValue) (cleanSeqOp, cleanCombOp) 

35 var partiallyAggregated = mapPartitions (it => Iterator (aggregate 
Partition(it) ) ) 

14. Var numPartitions = partiallyAggregated.partitions.length 

省 5 Val scale = math.max (math.ceil (math.pow(numPartitions，1.0 / 
depth)) .toInt, 2) 

eR // 如 果 创建 一 个 额外 的 级 别 并 不 能 帮助 减少 wall-clock 时 间 ， 停 止 聚合 树 ， 当 不 保存 
//wall-clock 时间 时 ， 不 触发 TreeRAggregation 聚合 

47 while (numPartitions > scale + math.ceil (numPartitions.toDouble / 
scale)) { 

18 . numPartitions /= scale 

了 98 val curNumPartitions = numPartitions 

205 partiallyAggregated = partiallyAggregated.mapPartitionsWithIndex { 

2 (i, iter) => iter.map((i $ curNumpartitions, _)) 

225 } .reduceByKey (new HashPartitioner (curNumPartitions), cleanCombOp). 

Values 

这 } 

24. partiallyAggregated.reduce (cleanCombOp) 

25< } 

TS 


31.4 Spark 旧版 本 中 性 能 调 优 之 HashShuffle 剖析 及 调 优 


大 数据 是 分 布 式 的 , 分 布 式 大 多 情况 下 涉及 Shuffle。Spark 内 核 引擎 是 树 根 , Spark Shuffle 
就 相当 于 整个 运行 的 树干 , 树枝 相当 于 在 Mapper 端 怎 么 表现 ， 在 Reducer 端 怎 么 表现 ， 内 部 
的 JVM 又 是 怎么 做 ,HashShuffle 虽然 在 Spark 新 版 本 中 己 经 不 用 了 ,但 温习 一 下 会 了 解 Spark 
Shuffle 到 底 是 怎么 回 事 。 

我 们 看 一 下 Spark 运行 架构 图 , 回顾 一 下 Spark 运行 的 方式 : Spark 本 身 运行 分 成 两 部 分 : 
第 一 部 分 是 Driver Program， 里 面 的 核心 是 Spark Context，Driver 是 驱动 ， 指 挥 工作 怎么 做 ; 
另 一 部 分 是 Worker 节点 上 的 Task， 具 体 工作 运作 在 Task 上 。Task 运行 在 JVM 的 线程 中 ， 
当 程序 运行 时 ， 不 间断 地 由 Driver 与 Executor 所 在 的 进程 进行 交互 ， 交 互 的 内 容 ， 第 一 、 
哪些 Task 发 送 消 息 给 Driver; 第 二 、 告 诉 Task 数据 源 在 哪里 ， 例 如 说 第 三 个 Stage 会 找 第 
二 个 Stage 拿 数 据 ， 怎 么 知道 数据 在 哪里 ? 向 Driver 拿 数 据 位 置信 息 这 个 过 程 ， 本 
Driver 跟 Executor 进行 网 络 传输 , 另 一 方面 是 Task 要 从 Driver ep nd Task 执行 
数据 结果 ， 所 以 在 这 个 过 程 中 就 不 断 地 产生 网 络 传输 。 其 中 ， 下 一 个 Stage 向 上 一 个 ae 
要 数据 这 个 过 程 ， 我 们 称 之 为 Shuffle。 

Shuffle 从 很 多 Stage 的 角度 讲 , 第 一 个 Stage 是 一 个 Mapper, 第 一 个 Stage 较 第 二 个 Stage 
而 言 ， 第 二 个 Stage 相当 于 第 一 个 Stage 的 Reducer， 第 二 个 Stage 相当 于 第 三 个 Stage 的 
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Mapper， 第 三 个 Stage 相当 于 第 二 个 Stage 的 Reducer， 依 此 和 迭代。 

于 上 游 阶段 的 数据 是 并 行 运行 的 ， 下 游 要 进行 汇总 ， 我 们 把 需要 的 那 类 数据 抓 到 
Reducer 中 ， 如 图 31-2 中 数据 分 为 3 类 ， 上 游 的 每 个 任务 都 要 把 自己 的 数据 分 成 3 类 ， 但 可 
能 有 一 类 一 个 数据 也 没有 ， 里 面 的 数据 为 空 ， 但 我 们 按照 这 种 规则 获取 ， 这 是 最 原始 的 
Shuffle。 在 这 最 原始 的 、 也 是 最 重要 的 Shuffle 的 基础 上 ,我们 才 考 虑 内 存 调 优 及 网 络 传输 等 
内 容 。 这 里 是 4 个 Task， 每 个 Task 分 3 种 类 型 有 3 个 Buffer， 每 个 Buffer 对 应 一 个 文件 ， 
共有 12 个 Buffer，12 个 文件 。 第 一 个 Task 开辟 了 Buffer0、Buffer1、Buffer2， 第 二 个 Task 
仍 需 要 再 开辟 Buffer0、Buffer1、Buffer2， 内 存 消 耗 很 大 。 如 果 每 个 Task 3 个 Buffer， 那 400 
个 Task 就 有 1200 个 Buffer，1200 个 本 地 文件 。 
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图 31-2 HashShuffle 


优化 后 的 HashShuffle 如 图 31-3 所 示 。 这 里 是 4 个 Task,， 数据 根据 Key 的 分 类 分 成 3 种 
类 型 ， 取 模 以 后 我 们 编号 为 0、1、2。 进 程 中 无 论 有 多 少 Task， 都 把 Task 同样 的 Key 放 到 
同一 个 Buffer 中 ， 并 把 同一 个 Task 的 数据 写 到 同一 个 本 地 文件 中 。 优 化 以 后 ，4 个 Task 变 
成 6 个 Buffer, 这 里 因为 每 两 个 Task 属于 同一 个 进程 ,进程 中 所 有 的 Task 共用 不 同 的 Buffer。 
例如 ， 第 一 个 Task 开辟 了 Buffer0、Buffer1、Buffer2， 第 二 个 Task 不 需要 再 开辟 Buffer0、 
Bufferl、Buffer2。 同 时 ， 在 运行 的 时 候 ， 现 在 是 2 个 Task， 也 可 能 是 20 个 Task， 都 往 3 个 
Buffer 中 根据 取 模 算法 写 入 标记 为 0、1、2 的 数据 。 例 如 ，0 号 写 入 标记 为 0 的 文件 中 ， 其 
优势 在 于 ， 如 果 进 程 中 有 200 个 Task， 还 是 3 个 Buffer， 本 地 还 是 3 个 文件 ， 另 外 的 一 个 进 
程 也 是 200 个 Task， 还 是 3 个 Buffer， 本 地 还 是 3 个 文件 ; 那 一 共 400 个 Task，6 个 Buffer， 
6 个 本 地 文件 。 同 样 的 Key 的 数据 合并 到 同一 个 Buffer 及 同一 个 数据 文件 ， 而 且 从 抓 取 数 据 
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的 角度 讲 简化 了 很 多 ， 以 前 要 抓 几 百 次 数据 及 建 很 多 的 Socket 端口 等 ， 现 在 只 是 抓 取 一 次 数 
据 ， 和 之 前 完全 是 不 同 的 概念 ， 减 少 了 本 地 磁盘 读 取 IO 的 时 间 ， 以 及 网 络 传输 的 负担 。 
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图 31-3 优化 后 的 HashShuffle 


优化 后 的 HashShuffle 是 ConsolidatedShuffle。Spark 1.6.X 以 前 版 本 可 以 设置 以 下 参数 : 
spark.shuffle.consolidateFiles=true。 这 里 是 两 个 CPU 并 行 度 。 假设 并 行 度 是 2，Task 任务 数 是 
200, 那 Task 进行 排队 , 不 断 地 往 Buffer 里 面 写 入 数据 。 文件 数量 的 计算 方式 基于 CPU Cores 
的 个 数 和 下 一 个 Stage 的 Task 个 数 的 乘积 : CPU CoresX Reducer Task ; 这 里 Key 分 成 3 份 ， 
两 个 CPU Cores 共计 2X3=6 个 文件 。 现 在 的 Spark 2.2.X 中 已 经 把 这 种 方式 废弃 了 。 


31.5 _ Shuffle 如何 成 为 Spark 性 能 杀手 


人 们 对 Spark 的 第 一 印象 往往 是 Spark 基于 内 存 进 行 计 算 。 但 实质 上 讲 ，Spark 基于 内 存 
进行 计算 ， 也 可 以 基于 磁盘 进行 计算 ， 或 者 基于 第 三 方 的 存储 空间 进行 计算 。 背 后 的 两 层 含 
义 : 四 Spark 架构 框架 的 实现 模式 是 倾向 于 在 内 存 中 计算 数据 的 ， 可 以 从 Storage、 算 法 、 库 
的 不 同方 式 看 出 来 ; @ 我 们 计算 数据 的 时 候 ， 数 据 就 在 内 存 中 。Shuffle 和 Spark 完全 基于 
内 存 的 计算 愿景 相 违 背 ，Shuffle 就 变 成 了 Spark 的 性 能 杀手 ， 从 现在 的 计算 机 硬件 和 软件 的 
发 展 水 平 看 ， 这 是 不 可 抗拒 的 。 

Shuffle 不 可 以 避免 ， 是 因为 在 分 布 式 系统 中 把 一 个 很 大 的 任务 /作业 分 成 一 百 份 或 者 一 
干 份 文件 ， 这 一 百 份 或 一 干 份 文件 在 不 同 的 机 器 上 独自 完成 各 自 不 同 的 部 分 ， 完 成 后 针对 整 
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个 作业 要 结果 ， 在 后 面 进行 汇聚 ， 从 前 一 阶段 到 后 一 阶段 及 网 络 传输 的 过 程 就 叫 Shuffle。 

在 Spark 中 , 为 了 完成 Shuffle 的 过 程 , 会 把 一 个 作业 划分 为 不 同 的 Stage, 这 个 Stage 的 
划分 是 根据 依赖 关系 决定 的 。Shuffle 是 整个 Spark 中 最 消耗 性 能 的 地 方 。 试 想 ， 如 果 没 有 
Shuffle，Spark 几乎 可 以 完成 一 个 纯 内 存 的 操作 ， 因 为 不 需要 网 络 传输 ， 又 有 迭代 的 概念 ， 
那 数 据 每 次 在 内 存 中 计算 ， 如 内 存 不 够 ， 也 可 以 每 次 算 一 点 ， 完 成 纯 内 存 的 操作 。 

那 Shuffle 如 何 破坏 了 这 一 点 ?因为 在 不 同 机 器 、 不 同 节 点 上 , 我 们 要 进行 数据 传输 ， 如 
reduceByKey， 它 会 把 每 个 Key 对 应 的 Value 聚合 成 一 个 Value， 然 后 生成 新 的 RDD。 下 游 
Stage 的 Task 拿 到 上 一 个 Stage 相同 的 key, 然后 进行 Value 的 reduce 操作 , 这 里 分 为 Mapper 
端的 reduce， 和 Reducer 端的 reduce。 数 据 在 通过 网 络 发 送 之 前 ， 要 先 存 储 在 内 存 中 ， 内 存 
达到 一 定 的 程度 ， 它 会 写 到 本 地 磁盘 (以 前 Spark 的 版 本 中 没有 Buffer 的 限制 ， 会 不 断 地 写 
入 Buffer， 内 存 满 了 就 写 入 本 地 文件 ，Buffer 没有 限制 有 很 大 的 次 端 ， 容 易 出 现 OOM, 但 
有 一 个 好 处 ， 如 以 前 的 版 本 可 以 使 用 48GB 的 内 存 ， 可 以 减少 IO 操作 ; 现在 的 Spark 版 本 
对 Buffer 大 小 设 定 了 限制 ,如 限制 Buffer 为 48KB,48KB 刷新 一 次 Buffer, 以 防止 出 现 OOM。 
每 个 版 本 的 变化 都 有 原因 ， 不 能 简单 地 说 好 ， 还 是 不 好 ) 。Mapper 端 写 入 内 存 Buffer， 这 
个 关乎 到 GC 的 问题 ， 然 后 Mapper 端的 Block 要 写 入 本 地 磁盘 文件 ，Spark 以 前 版 本 实现 
的 时 候 曾 经 只 要 RDD 存在 ， 本 地 的 临时 文件 并 不 会 被 删除 掉 ， 这 个 好 处 是 计算 到 一 半 或 者 
95% 的 时 候 ， 可 以 复 用 Mapper 端 本 地 磁盘 的 数据 ; 但 这 个 不 好 的 地 方 是 一 直 在 运行 ， 如 流 处 
理 程序 运行 了 5 天 的 时 间 ， 缓 存 越 来 越 大 ， 最 终 造 成 系统 崩溃 。 

Spark 一 再 鼓励 数据 就 在 内 存 中 ,我 们 就 在 内 存 中 计算 数据 ,但 Spark 是 分 布 式 的 , 不 可 
避免 地 要 进行 网 络 传输 ， 不 可 避免 地 进行 内 存 与 磁盘 IO 的 操作 ， 以 及 磁盘 IO 与 网 络 IO 
的 操作 ， 大 量 的 磁盘 与 IO 的 操作 和 磁盘 与 网 络 IO 的 操作 ， 这 就 构成 了 分 布 式 的 性 能 杀手 。 

如 果 要 对 最 终 计算 结果 进行 排序 ， 一 般 都 会 进行 sortByKey， 如 果 以 最 终结 果 思 考 ， 可 
以 认为 是 产生 了 一 个 很 大 很 大 的 partition, 例如 , 使 用 reduceByKey 的 时 候 指定 它 的 并 行 度 ， 
把 reduceByKey 的 并 行 度 变 成 1， 数 据 切片 就 变 成 1， 理 论 上 讲 ， 排 序 一 般 都 会 牵涉 很 多 节 
点 ， 如 果 把 很 多 节点 变 成 一 个 节点 ， 然 后 进行 排序 ， 有 时 会 取得 更 好 的 效果 ， 因 为 数据 就 在 
一 个 节点 上 ， 就 依靠 一 个 进程 进行 排序 。 以 前 的 一 个 项 目 就 用 到 这 一 点 : reduceByKey 之 后 
变 成 一 个 数据 分 片 ， 然 后 进行 mapPartitions，reduceByKey 是 Key-Value 的 方式 ， 对 于 Key 
值 业务 清楚 其 内 容 ，mapPartitions 这 里 就 是 一 个 Partition，Partition 内 部 可 以 按照 Key 进行 比 
较 ， 按 照 业务 需要 进行 排序 。 还 有 另外 一 种 算 子 repartitionAndSortWithinPartitions， 它 在 
Partitions 的 过 程 中 进行 Sort。SortByKey 默认 是 全 局 级 别 的 ， 我 们 还 是 使 用 reduceByKey 的 
时 候 指 定 它 的 并 行 度 ， 把 reduceByKey 的 并 行 度 变 为 1， 这 也 是 全 局 级 别 的 。 

Shuffle 还 有 一 个 很 危险 的 地 方 ， 就 是 数据 倾斜 。 例 如 ， 一 个 ReduceTask 抓 一 部 分 数据 ， 
另 一 个 ReduceTask 抓 一 部 分 数据 ，Key 的 分 发 时 可 能 第 一 个 节点 处 理 了 99% 的 数据 , 第 二 个 
节点 、 第 三 个 节点 处 理 了 1% 的 数据 。 什 么 时 候 会 导致 数据 倾斜 ? Shuffle 的 时 候 会 导致 数据 
倾斜 。 读 者 可 能 会 问 ， 在 计算 的 时 候 可 能 有 些 节点 数据 特别 多 ， 这 不 必 担 心 ， 有 两 个 层面 : 
@ Spark 的 数据 一 般 来 源 于 Hdfs，Hdfs 自动 分 配 的 数据 尽 可 能 地 均匀 分 配 。 即 使 原始 数据 
有 数据 倾斜 ， 就 算 百 亿 级 别 的 数据 量 计算 ， 也 是 很 快 的 ，Spark 就 很 擅长 在 本 地 节点 计算 ， 
很 凸显 Spark 计算 性 能 的 地 方 ; @ 但 是 ，Shuffle 产生 的 数据 倾斜 ， 就 须 向 上 帝 祈 裤 了 。 能 
否 彻 底 掌握 Shuffle 及 Shuffle 中 数据 倾斜 的 所 有 内 容 是 判断 一 个 Spark 高 手 的 最 直接 的 方式 。 

Shuffle 数据 倾斜 的 问题 会 牵扯 很 多 其 他 问题 ， 例 如 ， 网 络 带宽 、 各 种 人 硬件 故障 、 内 存 消 
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耗 OOM、 文 件 掉 失 。 因 为 Shuffle 的 过 程 中 会 产生 大 量 的 磁盘 IO、 网 络 IO 以 及 压缩 、 解 
压缩 、 序 列 化 和 反 序 列 化 等 。 
Shuffle 的 性 能 消耗 包括 : 磁盘 消耗 、 内 存 消耗 、 网 络 消耗 ， 以 及 分 发 数据 过 程 中 产生 的 





口 Mapper 端的 Buffer 设置 为 多 大 ? Buffer 设置 得 大 ， 可 提升 性 能 ， 减 少 磁盘 LO， 但 
是 对 内 存 有 要 求 ， 对 GC 有 压力 ; Buffer 设置 得 小 ， 可 能 不 占用 那么 多 内 存 , 但 是 可 
能 频繁 的 磁盘 1O、 频 繁 的 网 络 1/O。spark.shuffle.file.buffer 默认 是 32KB。 

口 Reducer 端的 Buffer 设置 为 多 大 ? Buffer 设置 得 小 ， 限 制 了 每 次 拉 取 多 少数 据 过 来 ， 
spark.reducer.maxSizeInFlight 默认 情况 是 48MB， 一 次 最 大 可 以 拉 取 48MB 数据 ， 如 
把 数据 变 成 1GB， 那 拉 取 数据 的 次 数 变 少 了 ， 拉 取 的 效率 变 高 了 。 假 如 变 成 48KB， 
原来 10 次 就 够 了 ， 现 在 需要 1 万 次 。 

口 在 数据 传输 的 过 程 中 是 否 有 压缩 , 以 及 使 用 什么 方式 压缩 , 默认 使 用 snappy 的 压缩 
方式 。 使 用 snappy 方式 的 好 处 是 压缩 速度 快 ， 但 占用 空间 ， 可 以 根据 业务 需求 使 用 
配置 其 他 的 压缩 方式 。 

口 网 络 传输 失败 重 试 的 次 数 : 网 络 传输 有 很 大 的 风险 ， 可 能 出 故障 。 一 般 需 要 重 试 ， 
那 重 试 多 少 次， 每 次 重 试 之 间 间 隔 多 少时 间 也 是 非常 重要 的 调 优 参数 。 腾 讯 曾经 在 
做 一 个 很 大 规模 的 图 计算 的 时 候 ， 就 是 调 优 的 时 候 调 整 了 这 两 个 参数 ， 才 让 整个 图 
计算 分 析 工 作 得 以 顺利 进行 。 例 如 ， 默 认 是 重 试 3 次 ， 如 果 抓 取 3 次 还 没有 弄 好 ， 
就 宣告 失败 。 在 数据 本 来 有 ， 但 重 试 3 次 抓 不 到 数据 的 情况 下 ， 是 上 游 可 能 在 进行 
GC， 不 响应 请 求 。 我 们 一 般 考 虑 将 3 次 变 成 30 次 、50 次 ， 或 者 变 成 100 次 。 我 们 
至 少 应 将 参数 spark.shuffle.io.maxRetries =30 次 。 

口 每 次 重 试 之 间 的 时 间 间 隔 默认 是 5s， 为 了 减少 重 试 次 数 ， 可 以 调 大 等 待 的 时 间 。 建 
议 将 时 间 间 隔 设置 为 60s。 

口 现在 Spark 是 排序 的 Shufftle， 那 作为 业务 ， 是 否 需要 排序 呢 ? 不 一 定 。SortShuffle 
的 浆 端 是 浪费 时 间 ，SortShuffle 排序 用 的 是 全 量 的 数据 。 在 一 定 情况 下 ，HashShuffle 
比 SortShuffle 的 性 能 更 好 ， 因 为 不 需要 排序 ， 部 分 数据 就 可 以 进行 Shuffle。 因 此 有 
一 个 参数 开关 sparkshuffle.sortbypassMergeThreshold ， 并 行 度 多 大 的 时 候 采 用 
SortShuffle 方式 ， 什 么 时 候 采用 HashShuffle 方式 ， 对 性 能 的 影响 非常 大 。 


31.6 ”Spark Hash Shuffle 源码 解读 与 剖析 


Spark 2.2.X 现在 的 版 本 已 经 没有 Hash Shuffle 的 方式 ， 那 为 什么 我 们 还 要 讲解 Hash 
Shuffle 源码 的 内 容 呢 ? 原因 有 3 点 : 外 在 现在 的 实际 生产 环境 下 ， 很 多 人 在 用 Spark 1.5.X， 
实际 上 是 在 使 用 Hash Shuffle 的 方式 ，@Hash Shuffle 的 方式 是 后 续 Sort Shuffle 的 基础 ; 
@ 在 实际 生产 环境 下 ， 如 果 不 需 要 排序 ， 数 据 规模 不 是 那么 大 ，HashShuffle 的 方式 是 性 能 比 
较 好 的 一 种 方式 ，Spark Shuffle 是 可 以 插 拔 的 ， 我 们 可 以 进行 配置 。 

本 节 基 于 Spark 1.5.2 版 本 讲解 Hash Shuffle; Spark 1.6.3 是 Spark 1.6.0 中 的 一 个 版 本 ， 
如 果 在 生产 环境 中 使 用 Spark 1.x， 最 终 都 会 转向 Spark 1.6.3。Spark 1.6.3 是 1.X 版 本 中 的 最 
后 一 个 版 本 ， 也 是 最 稳定 、 最 强大 的 一 个 版 本 ; Spark 2.2.0 是 Spark 最 新 版 本 ， 可 以 在 生产 
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环境 中 实验 。 
Shuffle 的 过 程 是 Mapper 和 Reducer 以 及 网 络 传输 构成 的 ，Mapper 端 会 把 自己 的 数据 

写 入 本 地 磁盘 ，Reducer 端 会 通过 网 络 把 数据 抓 取 过 来 。Mapper 会 先 把 数据 缓存 在 内 存 中 。 
默认 情况 下 ,缓存 空间 是 32KB， 数 据 从 内 存 到 本 地 磁盘 的 一 个 过 程 就 是 写 数据 的 一 个 过 程 。 

这 里 有 两 个 Stage, 上 一 个 Stage 叫 ShuffleMapTask, 下 一 个 Stage 可 能 是 ShuffleMapTask， 
也 有 可 能 是 ResultsTask， 取 决 于 它 这 个 任务 是 不 是 最 后 一 个 Stage 产生 的 。ShuffleMapTask 
会 把 我 们 处 理 的 RDD 的 数据 分 成 若干 个 Bucket, 即 一 个 又 一 个 的 Buffer。 一 个 Task 怎么 去 
切 分 ， 具 体 要 看 你 的 partitioner，ShuffleMapTask 肯定 是 属于 具体 的 Stage。 

下 面 看 一 下 Spark 1.5.2 版 本 的 ShuffleMapTask， 里 面 创建 了 一 个 ShuffleWriter， 它 是 负 
责 把 缓存 中 的 数据 写 入 本 地 磁盘 ，ShuffleWriter 写 入 入 本 地 磁盘 时 ， 还 有 一 个 非常 重要 的 工 
作 , 就 是 要 跟 Spark 的 Driver 通信 , 告诉 Driver 把 数据 写 到 了 什么 地 方 , 这 样 , 下 一 个 Stage 
找 上 一 个 Stage 的 数据 的 时 候 ， 通 过 Driver(blockManagerMaster) 去 获取 数据 的 位 置信 息 ， 
Driver(blockManagerMaster) 会 告诉 下 一 个 Stage 中 的 Task 需要 的 数据 在 哪里 。 ShuffleMapTask 
的 核心 代码 是 ranTask。runTask 的 源码 如 下 。 

Spark 1.5.2 版 本 的 ShuffleMapTask.scala 的 源码 如 下 。 





4 override def runTask (context: TaskContext): MapStatus = { 

2 // 使 用 广播 变量 的 RDD 进行 反 序列 化 

2 val deserializeStartTime = System.currentTimeMillis() 

4 val ser = SparkEnv.get.closureSerializer.newInstance() 

5 val (rdd， dep) = ser.deserialize[ (RDD[ ], ShuffleDependency[ ， ， 
Dt 

GE ByteBuffer.wrap (taskBinary.value), Thread.currentThread. 
getContextClassLoader) 

了 5 _executorDeserializeTime = System.-currentTimeMillis() - 
deserializeStartTime 

8. 

和 metrics = Some(context.taskMetrics) 

10. Var writer: ShuffleWriter[Any, Any] = null 

Ls Tey t 

了 2 val manager = SparkEnv.get.shuffleManager 

2 writer =manager.getWriter[Any, Any] (dep.shuffleHandle, partitionId, 
context) 

了 4 writer.write (rdd.iterator (partition, context) .asInstanceOf [Iterator 
[_ <: Product2 [Any, Any]]]) 

i writer.stop(success = true) .get 

16. } catch { 

Te case e: Exception => 

18- try 

19. if (writer != null) { 

205 writer.stop(success = false) 

之 于 } 

22 } catch { 

3 case e: Exception => 

2 log.debug ("Could not stop writer", e) 

2 

0 throw e 

者 后 } 

Zs 3 


Spark 2.2.0 版 本 的 ShuffleMapTask.scala 的 源码 与 Spark 1.5.2 版 本 相 比 具有 如 下 特点 。 
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口 新 增 threadMXBean 变量 ， 构 建 系统 托管 bean， 用 于 Java 虚拟 机 的 线程 系统 。 新 增 
统计 反 序 列 化 的 开始 时 间 deserializeStartCpuTimne ， 以 及 执行 反 序 列 化 的 时 间 
_executorDeserializeCpuTime。 


口 上 段 代码 的 第 9 行 删除 。 





a 

2. val threadMXBean = ManagementFactory.getThreadMxXBean 

i 

4. val deserializeStartCpuTime = if (threadMXBean.isCurrentThreadCpuTime 

Supported) { 

5 threadMXBean .getCurrentThreadCpuTime 

Be } else OL 

Ti 

8 executorDeserializeCpuTime = if (threadMXBean.isCurrentThreadCpuTime 
Supported) { 

9. threadMXBean .getCurrentThreadCpuTime - deserializeStartCpuTime 

a0 } else OL 

DL 


从 SparkEnv.get.shuffleManager 获取 哈 希 的 方式 , 查看 SparkEnv.scala 的 shuffleManager， 
在 Spark 1.52 版 本 中 ， 有 3 种 方式 : HashShuffleManager 、SortShuffleManager 、 
UnsafeShuffleManager; 在 Spark 1.5.2 版 本 中 ， 默 认 也 变 成 SortShuffleManager 的 方式 。 在 配 
置 Spark Conf 的 时 候 ， 可 以 进行 配置 。 

Spark 1.5.2 版 本 的 SparkEnv.scala 的 源码 如 下 。 

全 val shortShuffleMgrNames = Map( 

2 "hash" -> "org.apache.spark.shuffle.hash.HashShuffleManager", 

<| "sort" -> "org.apache.spark.shuffle.sort.SortShuffleManager", 

4 "tungsten-sort" -> "org.apache.spark.shuffle.unsafe.UnsafeShuffle 

Manager") 

val shuffleMgrName = conf.get ("spark.shuffle.manager", "sort") 
val shuffleMgrClass = shortShuffleMgrNames .getOrElse (shuffleMgrName. 


toLowerCase, shuffleMgrName) 
es val shuffleManager = instantiateClass[ShuffleManager] (shuffleMgrClass) 


Spark 2.2.0 版 本 的 SparkEnv.scala 的 源码 与 Spark 1.5.2 版 本 相 比 具有 如 下 特点 。 


口 上 段 代 码 第 2 行 删除 ，Spark 2.2 版 本 已 无 哈 希 方式 。 
口 上 段 代码 第 3 行 、 第 4 行使 用 classOf[org.apache.spark.shuffle.sort.SortShuffleManager]. 


oau 


getName 获取 类 名 。 

口 上 段 代 码 第 6 行 shuffleMgrName.toLowerCase 方法 新 增 传 入 参数 Locale.ROOT。 

ele oY 

本 "sort" -> classOf[org.apache.spark.shuffle.sort.SortShuffleManager]. 
getName, 

3 "tungsten-sort"” -> classOf[org.apache.spark.shuffle.sort.SortShuffleManager] . 
getName) 

es 

5. val shuffleMgrClass = 


者 沁 ShortShuffleMgrNames .getOrElse (shuffleMgrName .toLowerCase (Locale. 
ROOT), shuffleMgrName) 
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下 面 查看 一 下 HashShuffleManager.scala 的 getWriter 方法 。 

Spark 1.5.2 版 本 的 HashShuffleManager.scala 的 源码 如 下 。 

3 override def getWriter[K, V] (handle: ShuffleHandle, mapId: Int, 

context: TaskContext) 

党 ShuffleWriter[K，V] = { 

区 new HashShuffleWriter( 

4 shuffleBlockResolver, handle.asInstanceOf[BaseShuffleHandlel[K, V, 

_]], mapId, context) 

与 5 

Spark 2.2.0 版 本 已 无 HashShuffleManager 代码 。 

从 getWriter 方式 创建 了 HashShuffleWriter 的 实例 对 象 , 如 果 需 要 看 它 具 体 怎么 写 数据 ， 
必须 看 HashShuffleWriter 类 ， 然 后 它 也 必须 有 一 个 write 方法 。 

HashShuffleWriter 类 的 write 方法 首先 判断 一 下 是 否 在 Mapper 端 进行 aggregrate 操作 ， 
也 就 是 说 ， 是 否 进行 Map Reduce 计算 模型 的 Local Reduce 本 地 聚合 ,如果 有 本 地 聚合 操作 ， 
就 循环 遍历 Buffer 里 面 的 数据 ， 基 于 records 进行 聚合 。 例 如 ，reduceByKey 操作 。 怎 么 进 
行 聚合 ? 取决 于 reduceByKey 中 传 入 的 算 子 ， 如 是 加 操作 ， 还 是 乘 操作 。reduceByKey 将 数 
据 放 到 Buffer 中 聚合 后 ， 再 写 入 本 地 Block， 在 本 地 的 聚合 显现 带 来 的 好 处 是 减少 磁盘 IO 
的 数据 、 操作 磁盘 IO 的 次 数 、 网络 传输 的 数据 量 , 以 及 这 个 Reduce Task 抓 取 Mapper Task 
数据 的 次 数 ， 这 个 意义 表 定 是 非常 重大 的 。 

Spark 1.5.2 版 本 的 HashShuffleWriter.scala 的 write 方法 的 源码 如 下 。 


: override def write (records: Iterator[Product2[K, V]]): Unit = { 

2 val iter = if (dep.aggregator.isDefined) { 

3 if (dep.mapSideCombine) { 

4. dep .aggregator .get.combineValuesBYKey (records, context) 

GB } else { 

6 records 

WE 

时 电 } else { 

9 require(!dep.mapSideCombine, "Map-side combine without Aggregator 
specified!") 

10- records 

pie } 

下 

i 区 光 for (elem <- iter) { 

14. val bucketId = dep.partitioner.getPartition(elem. 1) 

Se shuffle.writers (bucketId) .write (elem. 1, elem. 2) 

Ds } 

:ll 


Spark 2.2.0 版 本 已 无 HashShuffleWriter 代码 。 

通过 HashShuffleWriter 的 write 代码 可 以 看 见 ， 如 果 有 本 地 聚合 ， 就 会 在 内 存 中 完成 聚 
合 。 例 如 ， 说 reduceByKey 是 累加 的 话 ， 就 往 累 加 上 写 数据 ， 因 为 它 是 线性 执行 的 ， 后 面 才 
是 本 地 文件 写 数 据 ， 先 获取 partitioner.getPartition， 一 个 分 片 一 个 分 片 地 写 ， 如 图 31-3 所 示 
bucketId 可 以 认为 是 内 存 操作 的 句柄 ， 我 们 需要 将 bucketId 传 进去 ， 然 后 使 用 shuffle.writers 
(bucketId).write(elem._1, elem. 2) 写 数据 。 

HashShuffleWriter 类 中 write 方法 的 shuffleBlockResolver.forMapTask 代码 中 , FileShuffle 
BlockResolver 类 的 forMapTask 方法 中 的 ShuffleWriterGroup: 如 果 启 动 了 文件 合并 机 制 ， 写 
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数据 时 ， 将 很 多 的 不 同 Task 的 相同 Key 的 数据 合并 在 同一 个 文件 中 ， 这 就 是 ShuffleWriter 
Group。 里 面 会 有 一 个 判断 consolidateShuffleFiles， 判 断 是 否 需 要 合并 的 过 程 。 判 断 是 否 启动 
压缩 机 制 ， 如 果 启 动 了 压缩 机 制 ， 就 会 有 一 个 fleGroup， 和 否则 就 getFile。 

Spark 1.5.2 版 本 的 FileShuffleBlockResolver.scala 的 forMapTask 方法 的 源码 如 下 。 


FI 


2 


def forMapTask (shuffleId: Int, mapId: Int, numBuckets: Int，serializer: 
Serializer, 
writeMetrics: ShuffleWriteMetrics): ShuffleWriterGroup = { 
new ShuffleWriterGroup { 
shuffleStates.putIfAbsent (shufflelId, new ShuffleState (numBuckets)) 
private val shuffleState = shuffleStates (shuffleId) 
private var fileGroup: ShuffleFileGroup = null 


val openStartTime = System.nanoTime 

val serializerInstance = serializer.newInstance() 

val writers: Array[DiskBlockObjectWriter] =if (consolidateShuffleFiles){ 
fileGroup = getUnusedFileGroup() 

Array.tabulate[DiskBlockObjectWriter] (numBuckets) { bucketId => 
val blockId = ShuffleBlockId(shufflelId, mapId, bucketId) 
blockManager .getDiskWriter (blockId, fileGroup (bucketId), serializer 
Instance, bufferSize, 

writeMetrics) 
} 
} else { 

Array.tabulate [DiskBlockObjectWriter] (numBuckets) { bucketId 
val blockId = ShuffleBlockId(shufflelId, mapId, bucketId) 
val blockFile = blockManager.diskBlockManager .getFile (blockId) 
// 由 于 先前 的 失败 ， 这 个 机 器 节点 上 可 能 已 经 存在 Shuffle 文件 了 ， 如 果 是 ， 则 删 
// 除 此 文件 
if (blockFile.exists) { 

if (blockFile.delete()) { 
logInfo(s"Removed existing shuffle file $blockFile") 
} else { 
logWarning (s"Failed to remove existing shuffle file $blockFile") 
} 
1 

blockManager.getDiskWriter (blockId, blockFile, serializerInstance, 

bufferSize， 

writeMetrics) 


| 
// 创 建文 件 和 磁盘 写 入 都 涉及 与 磁盘 的 交互 ， 所 以 应 包括 Shuffle 写 入 时 间 


writeMetrics.incShuffleWriteTime (System.nanoTime - openStartTime) 


override def releaseWriters (success: Boolean) { 
if (consolidateShuffleFiles) { 
if (success) { 
val offsets = writers.map( .fileSegment() .offset) 
val lengths = writers.map( .fileSegment() .length) 
fileGroup.recordMapOutput (mapId, offsets, lengths) 
E 
recycleFileGroup (fileGroup) 
} else { 
shufflesState.completedMapTasks .add (mapId) 
I 
} 
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} 


private def getUnusedFileGroup(): ShuffleFileGroup = { 
val fileGroup = shuffleState.unusedFileGroups.poll() 
if (fileGroup != null) fileGroup else newFileGroup() 
} 


private def newFileGroup(): ShuffleFileGroup = { 
val fileId = shuffleState.nextFileId.getAndIncrement () 
val files = Rrray.tabulate[File] (numBuckets) { bucketId => 
val filename = physicalFileName (shuffleId，bucketId，fileId) 
blockManager.diskBlockManager.getFile (filename) 
} 
val fileGroup = new ShuffleFileGroup (shuffleId, filelId, files) 
shuffleState.allFileGroups.add (fileGroup) 
fileGroup 
: 


private def recycleFileGroup(group: ShuffleFileGroup) { 
shuffleState.unusedFileGroups.add (group) 
} 
} 


Spark 2.2.0 版 本 已 无 FileShuffleBlockResolver 代码 。 
是 否 进行 consolidateShuffleFiles， 无 论 是 哪 种 情况 ， 最 终 都 要 写 数据 。 写 数据 通过 
blockManager 来 实现 ，blockManager.getDiskWriter 把 数据 写 到 本 地 磁盘 ， 就 是 很 基本 的 IO 


操作 。 


Spark 1.5.2 版 本 的 BlockManager.scala 的 getDiskWriter 的 源码 如 下 。 


wowm 必 wm 


305 
Ls 


} 


def getDiskWriter( 

blockId: BlockId, 

file: File, 

serializerInstance: SerializerInstance, 

bufferSize: Int, 

writeMetrics: ShuffleWriteMetrics): DiskBlockObjectWriter = { 
Val compressStream: OutputStream => OutputStream=wrapForCompression 
(blockId, ) 
val syncWrites = conf.getBoolean("spark.shuffle.sync", false) 
new DiskBlockObjectWriter (blockId, file, serializerInstance, bufferSize, 
CompressStreamv 

syncWrites, writeMetrics) 


Spark 2.2.0 版 本 的 BlockManager.scala 的 getDiskWriter 的 源码 与 Spark 1.5.2 版 本 相 比 具 


有 如 下 特点 。 


口 上 段 代 码 第 7 行 代码 已 删除 。 
口 构建 DiskBlockObjectWriter 实例 的 参数 顺序 和 名 称 进行 了 微调 。 





开 
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new DiskBlockObjectWriter (file, serializerManager, serializerInstance, 
bufferSize,syncWrites, writeMetrics, blockId) 


到 HashShuffleWriter.scala，shuffleBlockResolver.forMapTask 传 入 的 参数 要 注意 : 第 一 
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个 参数 是 shuffleId， 第 二 个 参数 是 mapId， 第 三 个 参数 是 输出 的 Split 个 数 ， 第 四 个 参数 是 
序列 化 器 ， 第 五 个 参数 是 metric 来 统计 它 的 一 些 基本 信息 。 


RS private val shuffle = shuffleBlockResolver.forMapTask (dep.shuffleId, 
mapId, numOutputSplits, ser, writeMetrics) 


HashShuffleWriter.scala 中 先进 行 forMapTask, 然后 进行 writer 操作 。 例如 , reduceByKey 





在 本 地 进行 了 聚合 ， 假 设 相 同 Key 的 Value 有 10 000 个 ， 原 本 需要 写 10 000 次 ， 
objOut.writeKey(key) 是 写 key，objOut.writeValue(value) 是 写 value; 但 是 ， 如 果 进 行 了 本 地 聚 


a 
口 ， 


将 10 000 个 Value 进行 聚合 ， 那 只 需要 写 1 次 。writer 写 入 部 分 的 源码 如 下 : 
Spark 1.5.2 版 本 的 HashShuffleWriter.scala 的 writer 的 源码 如 下 。 


有 for (elem <- iter) { 

这 Val bucketId = dep.partitioner.getPartition(elem. 1) 
位 shuffle.writers (bucketId) .write(elem. 1, elem. 2) 
ne 


Spark 2.2.0 版 本 已 无 HashShuffleWriter 代码 。 
下 面 看 一 下 DiskBlockObjectWriter.scala 的 write 方法 ,这 个 write 就 是 Disk 级 别 的 write。 


def write(key: Any, value: Any) { 
if (!initialized) { 
open () 


objOut .writeKey (key) 
objOut .writeValue (value) 
recordWritten() 


} 


oawm 必 wm 


HashShuffleWriter.scala 的 write 方法 中 shuffle.writers(bucketId).write(elem.1, elem. 2) 中 


的 writers， 把 bucketId 传 进去 ， 指 明 数 据 具 体 写 在 什么 地 方 。 


Spark 1.5.2 版 本 的 FileShuffleBlockResolver.scala 的 源码 如 下 。 


:本 private[spark] trait ShuffleWriterGroup { 


这 val writers: Array[DiskBlockObjectWriter] 

全 三 

" /** @param success 表示 所 有 写 入 成 功 。 如 果 为 false， 则 没有 块 将 被 记录 */ 
Se def releaseWriters (success: Boolean) 

6 


Spark 2.2.0 版 本 已 无 FileShuffleBlockResolver 代码 。 
HashShuffle 在 内 存 中 有 bucket 缓存 , 在 本 地 有 磁盘 文件 , 在 调 优 的 时 候 须 注意 内 存 和 磁 





盘 IO 的 操作 。 再 回 看 一 下 HashShuffleWriter.scalad 的 write 写 入 代码 shuffle.writers 
(bucketId).write(elem._1, elem. 2)， 根 据 关联 的 bucketId 将 数据 写 入 到 本 地 文件 中 。 循 环 遍历 
iter 迭代 器 获取 元 素 ，write 方法 写 数据 的 时 候 传 入 elem._1 和 elem. 2 两 个 参数 ， 其 中 elem 
的 第 一 个 元 素 elem._1 是 Key 值 ，elem 的 第 二 个 元 素 elem._2 是 value 值 ， 即 具体 内 容 本 身 。 


是 司 for (elem <- iter) { 

2 val bucketId = dep.partitioner.getPartition(elem. 1) 
3 shuffle.writers (bucketId) .write(elem. 1, elem. 2) 
二 
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其 中 的 getPartition 代码 ， 基 于 它 的 key 分 发 到 不 同 的 bucketId 上 ，Partitioner.scala 的 
getPartition 是 抽象 类 Partitioner 的 方法 ， 没 有 有 具体 实现 。 

abstract class Partitioner extends Serializable { 

区 def numPartitions: Int 

3 def getPartition (key: Any): Int 

om 

下 面 看 一 下 Partitioner.scala 中 HashPartitioner 类 的 getPartition 方法 ， 把 key 值 传 进来 。 

Spark 默认 的 并 行 度 会 遗传 ， 从 上 一 个 Stage 传递 到 下 一 个 Stage。 例 如 ， 如 果 上 游 有 4 
个 并 行 任 务 ， 下 游 也 会 有 4 个 。 

HashPartitioner 类 的 getPartition 方法 的 源码 如 下 。 








yD class HashPartitioner(partitions: Int) extends Partitioner { 

这 require(partitions >= 0, s"Number of partitions ($partitions) cannot be 
negative.") 

= 

A def numPartitions: Int = partitions 

Si 

Os def getPartition(key: Any): Int = key match { 

六 case null => 0 

8 . case _ => Utils.nonNegativeMod(key.hashCode，numPartitions) 

加 中 

LO 

ME override def equals (other: Rny): Boolean = other match { 

2 case h: HashPartitioner => 

3 h.numPartitions == numPartitions 

14. CaSe .=> 

和 false 

d=} 

75 

18.  ， override def hashCode: Int = numPartitions 

人 


HashPartitioner 类 的 getPartition 方法 中 调用 了 nonNegativeMod 方法 , 定义 了 一 个 计算 方 
式 ， 传 入 两 个 参数 : key 的 hashCode， 以 及 要 多 少 分 片 numPartitions， 就 是 普通 的 求 模 运 算 。 

def nonNegativeMod(x: Int, mod: Int): Int = { 

区 Val rawMod = x % mod 

32 rawMod + (if (rawMod < 0) mod else 0) 

4. } 

基于 writer 的 基础 ， 看 一 下 reader。HashShuffleReader.scala 重点 是 看 它 的 Read 方法 ， 
首先 会 创建 一 个 ShuffleBlockFetcherIterator， 这 里 有 一 个 很 重要 的 调 优 的 参数 spark.reducer. 
maxSizeInFlight， 也 就 是 说 ， 一 次 能 最 大 抓 取 多 少数 据 过 来 ， 在 Spark 1.5.2 默认 情况 下 是 
48MB， 如 果 在 内 存 足 够 大 以 及 把 Shuffle 内 存 空间 分 配 足 够 的 情况 下 (Shuffle 默认 占用 20% 
的 内 存 空间 ) ， 可 以 尝试 调 大 这 个 参数 ， 如 可 将 spark.reducer.maxSizeInFlight 调 成 96MB， 
甚至 更 高 。 调 大 这 个 参数 的 好 处 是 减少 抓 取 次 数 ， 因 为 网 络 IO 的 开销 来 建立 新 的 连接 其 实 
很 耗 时 。 

HashShuffleReader scala 的 Read 方法 进行 一 个 判断 mapSideCombine， 是 否 需 要 聚合 
aggregate， 分 别 实现 需要 聚合 及 不 需要 聚合 的 操作 ; 从 reducer 端 借助 HashShuffleReader， 从 
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远程 抓 取 数据 ， 抓 取 数 据 过 来 后 进行 aggregate 操作 ， 至 于 汇聚 之 后 进行 分 组 或 者 还 是 reduce 
及 其 他 一 些 操作 ， 这 是 开发 者 决定 的 。 

对 于 Spark 1.5.2 版 本 HashShuffleReader.scala，Spark 2.2.0 版 本 已 将 HashShuffleReader 
更 名 为 BlockStoreShuffleReader， 相 关 功 能 在 BlockStoreShuffleReader 中 实现 。 

这 里 谈 到 聚合 ， 我 们 深入 看 一 下 reduceByKey。reduceByKey 和 Hadoop 的 Map reduce 
相 比 ， 有 一 个 缺点 : Hadoop 的 Map reduce 中 无 论 业务 是 什么 类 型 ，Map reduce 都 可 以 自 定 
义 ，Map reduce 的 业务 逻辑 都 可 以 不 一 样 。 但 reduceByKey 有 一 个 好 处 ， 可 以 很 好 地 操作 上 
一 个 Stage 的 算 子 , 前 面 Mapper 的 算 子 也 可 以 很 好 地 操作 下 一 个 Stage, 具体 reduce 的 算 子 。 

PairRDDFunctions.scala 的 reduceByKey 方法 的 源码 如 下 。 


:3 def reduceByKey (partitioner: Partitioner, func: (V, V) =>V): RDDI[ (K, 
V)] = self.withScope { 

2 combineByKey[V] ((v: V) => v, func, func, partitioner) 

3. } 





reduceByKey 方法 里 会 调用 combineByKey。 

combineByKey 方法 中 : 

第 一 个 参数 createCombiner， 是 所 谓 的 Combiner; 例如 ， 建 立 一 个 元 素 列表 , 将 V 类 型 
转换 为 C 类 型 。 

第 二 个 参数 mergeValue， 在 元 素 列表 末尾 追加 元 素 ， 将 V 类 型 合并 进 C 类 型 。 

第 三 个 参数 mergeCombiners， 将 两 个 C 类 型 合并 成 1 个 。 

第 四 个 参数 partitioner， 指 定 分 区 器 。 

其 中 ，mapSideCombine 默认 为 ttue， 默 认 在 Mapper 端 进行 聚合 。 这 里 要 注意 key 的 类 
型 不 能 是 数组 。 第 二 个 参数 、 第 三 个 参数 从 reduceByKey 的 角度 看 是 一 样 的 。 





:i def combineByKey[C] (createCombiner: V => C, 

< mergeValue: (C, V) => C， 

< 全 mergeCombiners: (C, C) => C， 

二 partitioner: Partitioner, 

本 mapSideCombine: Boolean = true, 

;请 serializer: Serializer = null): RDD[(K, C)] = self.withScope { 
Ts 


回 到 HashShuffleReader.scala 的 read 方法 , 在 reducer 端 抓 取 数据 ， 需 要 进行 网 络 通信 的 
过 程 ， 那 网 络 通信 发 生 在 什么 时 候 呢 ? 网 络 通信 肯定 由 read 方法 中 的 
ShuffleBlockFetcherlterator 完成 。 

Spark 1.5.2 版 本 的 ShuffleBlockFetcherIterator.scala 的 源码 如 下 。 





i final class ShuffleBlockFetcherIterator ( 

2 context: TaskContext, 

3 shuffleClient: ShuffleClient, 

4. blockManager: BlockManager, 

5 blocksByAddress: Seq[ (BlockManagerId, Seq[ (BlockId, Long)])], 
办 有 maxBytesInFlight: Long) 

7. extends Iterator[ (BlockId, InputStream)] with Logging { 


Spark 2.2.0 版 本 的 ShuffleBlockFetcherlterator.scala 的 源码 与 Spark 1.5.2 版 本 相 比 具有 如 
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: 新 增 传 入 streamWrapper、 maxReqsInFlight、 maxReqSizeShuffleToMem、 detectCorrupt 


streamWrapper: (BlockId，InputStream) => Inputstream,. 


maxReqsInFlight: Int, 
maxReqSizeShuffleToMem: Long, 
detectCorrupt: Boolean) 


下 面 看 一 下 ShuffleBlockFetcherIterator.scala 的 initialize 方法 。 
Spark 1.5.2 版 本 的 ShuffleBlockFetcherlterator.scala 的 源码 如 下 。 


FFEeoocwawm 必 wm 
| = ere 


2 


private[this] def initialize(): Unit = { 


b 


// 将 任务 完成 回调 (在 成 功 案例 和 失败 案例 中 调用 〉 增 加 清理 处 理 


context .addTaskCompletionListener( => cleanup()) 


// 切 分 本 地 和 远程 块 
Val remoteRequests = splitLocalRemoteBlocks () 
// 以 随机 顺序 将 远程 请 求 增加 到 队列 中 


fetchRequests ++= Utils.randomize (remoteRequests) 


// 发 出 块 初始 请 求 ， 达 到 maxBytesInFlight 

while (fetchRequests.nonEmpty && 
(bytesInFlight == 0 || bytesInFlight + fetchRequests.front.size <= 
maxBytesInFlight)) { 
sendRequest (fetchRequests .dequeue () ) 

h 


val numFetches = remoteRequests.size - fetchRequests.size 
logInfo("Started " + numFetches + " remote fetches in" + Utils. 
getUsedTimeMs (startTime)) 


// 获 取 本 地 块 
fetchLocalBlocks () 
logDebug ("Got local blocks in " + Utils.getUsedTimeMs (startTime)) 


Spark 2.2.0 版 本 的 ShuffleBlockFetcherIterator.scala 的 源码 与 Spark 1.5.2 版 本 相 比 具有 如 


下 特点 。 


口 将 上 段 代码 的 第 10 行 至 14 行 代码 删除 。 
口 新 增 0 一 reqsInFlight 及 0 一 bytesInFlight 的 断言 风 辑 判断 。 


口 新 增 函 数 fetchUpToMaxBytes0， 发 出 块 初始 请 


于 
之 受 
过 





求 ， 达 到 我 们 的 maxBytesInFlight。 


assert ((0 == reqsInFlight) == (0 == bytesInF1ight) ， 
"expected reqsInFlight = 0 but found reqsInFlight = "+ reqsInFlight 
"+, expected bytesInFlight = 0 but found bytesInFlight = "+ 
bytesInFlight) 


// 发 出 块 初始 请 求 ， 达 到 maxBytesInF1ight 
fetchUpToMaxBytes () 


在 ShuffleBlockFetcherlterator.scala 的 initialize 方法 中 循环 遍历 ， 发 生 请 求 拉 取 数 据 ， 
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每 次 最 大 可 以 拉 取 48MB 数据 。 下 面 看 一 下 ShuffleBlockFetcherlterator.scala 的 sendRequest 


方法 。 


Spark 1.5.2 版 本 的 ShuffleBlockFetcherlterator.scala 的 sendRequest 方法 的 源码 如 下 。 


这 四 


全 
这 总 < 
295 
30s 
要 


private[this] def sendRequest (req: FetchRequest) { 
logDebug ("Sending request for %d blocks (%s) from $s".format( 
req.blocks.size, Utils.bytesToString (req.size), req.address.hostPort)) 
bytesInFlight += req.size 


// 这 样 ， 我 们 可 以 看 到 每 个 blockId 大 小 

val sizeMap = req.blocks.map { case (blockId, size) => (blockId. 
toString，size) }.toMap 

val blockIds = req.blocks.map(_. 1.toString) 


val address = req.address 
shuffleClient .fetchBlocks (address .host, address.port, address .executorId, 
blockIds.toArray, 
new BlockFetchingListener { 
override def onBlockFetchSuccess (blockId: String, buf: Managed 
Buffer): Unit = { 
// 如 果 夫 代 器 仍然 处 于 活动 状态 ， 只 在 结果 队列 中 添加 缓冲 区 ，cleanup () 还 没 被 
// 调 用 
if (!isZombie) { 
// 增 加 引用 计数 ， 因 为 我 们 需要 把 这 个 传递 给 不 同 的 线程 ， 需 要 在 使 用 后 释放 
buf.retain() 
results.put (new SuccessFetchResult (BlockId (blockId), address, 
sizeMap (blockId), buf)) 
shuffleMetrics.incRemoteBytesRead (buf .size) 
shuffleMetrics.incRemoteBlocksFetched(1) 
上 
logTrace ("Got remote block " + blockId + " after " + Utils.getUsed 
TimeMs (startTime)) 


| 


override def onBlockFetchFailure (blockId: String, e: Throwable) : 

Unit = { 
logError (s"Failed to get block(s) from ${req.address.host}: ${req. 
address.port}", e) 

results.put (new FailureFetchResult (BlockId (blockId) ,address, e)) 
} 
; 
n 
} 


Spark 2.2.0 版 本 的 ShuffleBlockFetcherIterator.scala 的 sendRequest 方法 的 源码 与 Spark 
1.5.2 版 本 相 比 具有 如 下 特点 。 

口 删除 上 段 代 码 中 的 第 20 行 和 第 21 行 。 

口 新 增 对 remainingBlocks、reqsInFlight、ShuffleBlockFetcherIterator 同步 块 等 的 处 理 。 

口 新 增 请 求 大 于 maxReqSizeShuffleToMem 的 代码 处 理 : 获取 远程 Shuffle 块 保存 到 磁 


盘 中 。 
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val remainingBlocks = new HashSet[String] () ++= sizeMap.keys 


val blockFetchingListener = new BlockFetchingListener { 


remainingBlocks -= blockId 
results.put (new SuccessFetchResult (BlockId (blockId) address, sizeMap 
(blockId), buf,remainingBlocks.isEmpty)) 
logDebug ("remainingBlocks: " + remainingBlocks) 
// 当 请 求 很 大 的 时 候 ， 获 取 远 程 Shuffle 块 到 磁盘 中 ，Shuffle 数据 是 加 密 和 压缩 的 (根据 
// 相 关 配 置 ) ， 我 们 抓 取 数 据 直接 写 入 文件 
if (req.size > maxReqSizeShuffleToMem) { 
val shuffleFiles = blockIds.map { _ => 
blockManager .diskBlockManager.createTempLocalBlock (). 2 
}.toArray 
shuffleFilesSet ++= shuffleFiles 
shuffleClient.fetchBlocks (address .host, address.port, address.executorId, 
blockIds .toArray, 
blockFetchingListener, shuffleFiles) 
} else { 
shuffleClient.fetchBlocks (address .host, address.port, address. 
executorId, blockIds.toArray, 
blockFetchingListener, null) 
| 


sendRequest 方法 中 的 shuffleClient.fetchBlocks(address.host, address.port, address.executorld, 
blockIds.toArray,blockFetchingListener,null) 代 码 中 就 有 host、port、 机 器 的 域名 和 端口 、 
executorId、blockIds 等 相关 信息 ， 抓 到 信息 后 会 有 BlockFetchingListener 进行 结果 的 处 理 。 

下 面 看 一 下 ShuffleClient .scala 的 fetchBlocks 方法 ， 从 远程 的 节点 中 同步 读 取 数据 。 

Spark 1.5.2 版 本 的 ShuffleClient .scala 的 fetchBlocks 方法 的 源码 如 下 。 


FAMAODP 


public abstract void fetchBlocks( 
String host, 

int port, 

String execId, 

String[] blockIds, 
BlockFetchingListener listener); 


Spark 2.2.0 版 本 的 ShuffleClient.scala 的 源码 与 Spark 1.5.2 版 本 相 比 具有 如 下 特点 : 新 增 
传 入 shuffleFiles 的 参数 。 


二 
汉 


fetchBlocks 具体 实现 的 代码 是 BlockTransferService.scala， 里 面 仍 没有 具体 实现 方法 。 
Spark 1.5.2 版 本 的 BlockTransferService.scala 的 fetchBlocks 方法 的 源码 如 下 。 


; 
2 
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override def fetchBlocks( 
host: ‘Stringy 
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port: Tnty 

execId: String, 

blockIds: Array[String]， 

listener: BlockFetchingListener): Unit 


OO 心 mw 


Spark 2.2.0 版 本 的 BlockTransferService.scala 的 fetchBlocks 的 源码 与 Spark 1.5.2 版 本 相 
比 具 有 如 下 特点 : 新 增 传 入 shuffleFiles 的 参数 。 


和 
2. shuffleFiles: Array[File]): Unit 


继续 查看 BlockTransferService.scala 子 类 的 实现 方式 ,是 NettyBlockTransferService.scala， 
Netty 是 基于 NIO 的 理念 进行 网 络 通信 ， 互 联网 公司 进行 不 同 进程 的 通信 一 般 都 使 用 Netty。 
说 明 : 它 底 层 有 一 套 通 信 框 架 ， 我 们 基于 这 套 通信 框架 进行 数据 的 请 求 和 传输 。 查 看 
NettyBlockTransferService.scala 的 fetchBlocks 的 源码 如 下 。 

Spark 1.5.2 版 本 的 NettyBlockTransferService.scala 的 fetchBlocks 方法 的 源码 如 下 。 





: 隔 override def fetchBlocks ( 
这 host: String, 
< ports TIntr 
4. execId: String, 
二 blockIds: Array[String]， 
Bs listener: BlockFetchingListener): Unit = { 
Te logTrace(s"Fetch blocks from $host: $port (executor id S$execId)") 
8. try 
J val blockFetchStarter = new RetryingBlockFetcher.BlockFetchStarter { 
0. override def createAndStart (blockIds: Array[String], listener: 
BlockFetchingListener) { 
Ls val client = clientFactory.createClient (host, port) 
new OneForOneBlockFetcher (client, appId, execId, blockIds.toArray, 
listener) .start () 
3e } 
4. } 
Se 
6. val maxRetries = transportConf.maxIORetries () 
if (maxRetries > 0) { 
8. // 注 意 , Fetcher 将 正确 处 理 maxRetries 等 于 0 的 情况 ; 避免 它 在 代码 中 发 生 Bug， 
// 一 旦 确定 了 稳定 性 ， 就 应 该 删除 if£ 语句 
9。 new RetryingBlockFetcher (transportConf, blockFetchStarter, blockIds, 
listener) .start () 
205 } else { 
2 blockFetchStarter.createAndStart (blockIds, listener) 
2 } 
x 浊 tcateh { 
24. case e: Exception => 
a logError ("Exception while beginning fetchBlocks", e) 
Ze blockIds . foreach (listener.onBlockFetchFailure( , e)) 
Zs } 
人 28 } 


Spark 2.2.0 版 本 的 NettyBlockTransferService.scala 的 fetchBlocks 的 源码 与 Spark 1.5.2 版 
本 相 比 具有 如 下 特点 。 
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口 fetchBlocks 方法 中 新 增 传 入 shuffleFiles 参数 。 
口 上 段 代 码 中 的 第 12 行 构建 OneForOneBlockFetcher 实例 时 ， 新 增 transportConf、 
shuffleFiles 参数 。 

SEE Rrray[Eile]l]): Unit = { 


new OneForOneBlockFetcher (client, appId, execId, blockIds.toArray, listener, 
transportConf, shuffleFiles) .start() 


GewN 


fetchBlocks 方法 中 第 16 行 的 maxRetries 是 最 大 的 重 试 次 数 ， createAndStart 是 底层 的 
Netty 实现 方法 。 

其 中 , OneForOneBlockFetcher(client appId, execId, blockIds.toArray, listener).startO 就 开始 
了 通信 过 程 。 下 面 看 一 下 OneForOneBlockFetcher.java 的 start 方法 的 源码 。 

Spark 1.5.2 版 本 的 OneForOneBlockFetcher.java 的 start 方法 的 源码 如 下 。 

:和 妥 public void start() { 








2 if (blockIds.length == 0) { 
< throw new IllegalArgumentException("Zero-sized blockIds array"); 
4. } 
入 
BE client.sendRpc (openMessage.toByteRrray () new RpcResponseCallback() { 
了 呈 @Override 
人 public void onSuccess(byte[] response) { 
9. Ee 
0. streamHandle = (StreamHandle) BlockTransferMessage.Decoder. 
fromByteArray (response); 
利和 logger .trace ("Successfull1y opened blocks {}, preparing to fetch 
chunks.", streamHandle) 
2 
3. // 立 即 请 求 所 有 的 块 一 我 们 期 望 请 求 的 总 大 小 是 合理 的 ， 因 为 是 在 
// [ShuffleBlockFetcherIterator] 中 更 高 层次 的 分 块 
4 for (int i = 0; i < streamHandle.numChunks; i++) { 
1 client.fetchChunk (streamHandle.streamId, i, chunkCallback); 
6. } 
TR } catch (Exception e) { 
8 logger .error ("Failed while starting block fetches after success", e); 
有 failRemainingBlocks (blockIds，e) 
205 3 
2 } 
224 
本 @Override 
ZA public void onFailure(Throwable e) { 
2 logger.error ("Failed while starting block fetches", e); 
26. failRemainingBlocks (blockIds, e); 
2 } 
28. 1D); 
29. 


Spark 2.2.0 版 本 的 OneForOneBlockFetcher.java 的 start 方法 的 源码 与 Spark 1.5.2 版 本 相 
比 具 有 如 下 特点 。 
口 上 段 代码 的 第 8 行 onSuccess 方法 的 response 参数 类 型 由 byte[] 类 型 调整 为 ByteBuffer 
类 型 。 
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口 


新 增 shuffleFiles 文件 是 否 为 空 的 逻辑 判断 处 理 。 


if (shuffleFiles != null) { 
client .stream(OneForOneStreamManager .genStreamChunkId (streamHandle. 
streamId, i), 
二 new DownloadCallback (shuffleFiles[i], i)); 
了 } else { 
8 


MpODP 


如 果 进一步 查看 fetch 内 容 ， 一 般 情况 下 会 提供 HashMap 的 数据 结构 ， 为 了 将 数据 聚合 

(1) Shuffle 存 数据 和 抓 取 数 据 ， 就 是 普通 的 Scala 和 Java 编程 ， 思 想 是 一 样 的 ， 有 个 组 
存 ， 然 后 往 磁盘 写 ， 不 过 ，Spark 是 分 布 式 系统 ， 要 跟 Driver 的 管理 器 进行 合作 ， 或 者 说 受 
Driver 的 控制 ， 如 写 数据 的 时 候 告 诉 Driver 数据 写 在 哪里 ， 然 后 下 一 个 阶段 要 去 读数 据 ， 到 
Driver 中 去 要 数据 。Driver 会 清晰 地 告诉 你 要 读 取 的 数据 在 哪里 。 具 体 读 数据 的 过 程 是 Netty 
的 mpe 框架， 是 基本 的 VO 操作 。 

(2) Reducer 端 如 果 内 存 不 够 写 磁盘 ， 代 价 是 双 倍 的 。Mapper 如 果 内 存 不 够 ,要 写 磁 盘 ， 
不 管 够 不 够 ， 都 只 写 1 次 ; 而 Reducer 端 如 果 内 存 不 够 ， 将 数据 存 到 磁盘 ， 在 计算 数据 的 时 
候 ， 又 再 次 将 数据 从 磁盘 上 抓 回来 。 这 时 有 一 个 很 重要 的 调 优 参数 ， 就 是 将 Shuffle 的 内 存 适 
当 调 大 。Shuffle 的 内 存 默认 占 20%， 可 以 调 大 到 30%， 但 也 不 能 太 大 ， 因 为 要 进行 Persist， 
Persist 在 磁盘 中 占用 的 空间 会 越 来 越 小 。 


31.7 ”Sort-Based Shuffle 产生 的 内 幕 及 其 tungsten-sort 


背景 解密 


在 历史 的 发 展 中 ， 为 什么 Spark 最 终 放弃 了 HashShuffle， 而 使 用 Sorted-Based Shuffle， 
而 且 作 为 后 起 之 秀 的 Tungsten-based Shuffle 到 底 是 在 什么 样 的 背景 下 产生 的 。Tungsten-Sort 
Shuffle 已 经 并 入 了 Sorted-Based Shuffle，Spark 的 引擎 会 自动 识别 程序 需要 原生 的 
Sorted-Based Shuffle， 还 是 用 Tungsten-Sort Shuffle， 那 识别 的 依据 是 什么 。 其 实 ，Spark 会 
检查 相对 的 应 用 程序 有 没有 Aggregrate 的 操作 。Sorted-Based Shuffle 也 有 缺点 ， 其 缺点 反 
而 是 它 排序 的 特性 ， 它 强制 要 求 数据 在 Mapper 端 必须 先进 行 排序 (注意 ， 这 里 没有 说 对 计 
算 结 果 进 行 排序 ) ， 所 以 导致 它 排序 的 速度 有 点 慢 。 而 Tungsten-Sort Shuffle 对 它 的 排序 算 
法 进行 了 改进 ， 优 化 了 排序 的 速度 。 

Spark Sorted-Based Shuffle 的 诞生 : 

为 什么 Spark 用 Sorted-Based Shuffle， 而 放弃 了 Hash-Based Shuffle? 在 Spark 里 ， 为 
什么 最 终 是 Sorted-Based Shuffle 成 为 核心 ,基本 了 解 过 Spark 的 学 习 者 都 会 知道 ,如 图 31-4 
所 示 ，Spark 会 根据 宽 依 赖 把 它 一 系列 的 算 子 划分 成 不 同 的 Stage，Stage 的 内 部 会 进行 
Pipeline，Stage 与 Stage 之 间 进 行 Shuffle。Shuffle 的 过 程 包含 3 部 分 。 
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F---------------- | ----------------” 
| 1 | | 
| SN | | 1 
1 1 | | 
Pipeline |! | 1 1 
要 算 子 执行 虫 hufPn 1 1 
Stage2 | (Fitter, | Write | | ! 
Map 等 ) | 1 
有 | ! | Pipeline|! 1| Pipeline 
\ 1 hufne| | 孙子 执行 !Shufne hufe| ! 障 子 执行 Shufnel 
1 Read |!| (Filter、 |1| Write Read | (Filter, | | write 
| 1IMap 等 ) |! 1Map 等 ) 
1 1 1 
1 | | 
1 1 1 | 
pipeline | 1 Stagel ! ! Stage0 
算 子 执行 | 1 1 T 
Stage3| (Filter、 i ! | ! 
Map 等 ) | rite ! | 1 
1 1 | ! 
1 1 1 | 
1 | 1 1 
1 Shufme ! Shufme | 
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图 31-4 ”Shuffle 的 过 程 


第 一 部 分 是 Shuffle 的 Write; 第 二 部 分 是 网 络 的 传输 ; 第 三 部 分 是 Shuffle 的 Read， 这 


三 大 部 分 设置 了 内 存 操作 、 磁 盘 LO、 网 络 IO 以 及 JVM 的 管理 。 而 这 些 影响 了 


Spark 应 用 


程序 在 95% 以 上 的 效率 ， 假 设 程序 代码 是 非常 好 的 情况 下 ，Spark 性 能 的 95% 都 消耗 在 


Shuffle 阶段 的 本 地 写 磁盘 文件 、 网 络 传输 数据 以 及 抓 取 数据 这 样 的 生命 周期 中 ， 
所 示 。 






Local Directory 
spark.local.dir 


Number of 
“Reducers” 


spark.executor.cores/ 
spark.task.cpus 


图 31-5 Shuffle 示意 图 


Number of map” tasks 
executed by this executor 


如 图 31-5 


在 Shuffle 写 数 据 的 时 候 ， 内 存 中 有 一 个 缓存 区 叫 Buffer， 可 以 想像 成 一 个 Map， 同 时 
在 本 地 磁盘 有 对 应 的 本 地 文件 。 如 果 本 地 磁盘 有 文件 ， 你 在 内 存 中 肯定 也 需要 有 相应 的 管理 
句柄 。 也 就 是 说 ， 单 从 ShuffleWrite 内 存 占用 的 角度 讲 ， 已 经 有 一 部 分 内 存 空间 是 用 在 存储 
Buffer 数据 的 ， 另 一 部 分 内 存 空间 是 用 来 管理 文件 句柄 的 ， 回 顾 HashShuffle 产生 小 文件 的 
个 数 是 Mapper 分 片 数 量 X Reducer 分 片 数量 (MXR) 。 例 如 ，Mapper 端 有 10 000 个 数 


据 分 片 ，Reducer 端 也 有 10 000 个 数据 分 片 ， 在 HashShuffle 的 机 制 下 ， 它 在 本 
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中 会 产生 10 000X10 000 = 100 000 000 个 小 文件 (1 亿 个 ) ， 可 想 而 知 ， 结 果 会 是 什么 ， 这 
么 多 的 UO， 这 么 多 的 内 存 消耗 、 这 么 容易 产生 OOM， 以 及 这 么 沉重 的 CG 负担 。 再 说 ， 
如 果 Reducer 端 去 读 取 Mapper 端的 数据 时 ，Mapper 端 有 这 么 多 的 小 文件 ， 要 打开 很 多 网 络 
通道 去 读数 据 ， 打 开 100 000 000 端口 (1 亿 个 ) 不 是 一 件 很 轻松 的 事 。 这 会 导致 一 个 非常 经 
典 的 错误 : Reducer 端 (也 就 是 下 一 个 Stage) 通过 Driver 去 抓 取 上 一 个 Stage 属于 它 自己 的 
数据 的 时 候 ， 说 文件 找 不 到 。 其 实 ， 这 时 不 是 真 的 找 不 到 磁盘 上 的 文件 ， 而 是 程序 不 响应 ， 
因为 它 在 进行 垃圾 回收 (GC) 操作 。 

Mapper 端 文件 句柄 消耗 太 多 ， 导 致 GC 时 Shuffle 失败 ，Shuffle 从 上 一 个 Stage 抓 取 数 
据 ， 默 认 是 3 次 ， 每 次 Sss， 如 果 15s 内 抓 不 到 数据 ， 就 报错 ， 要 找 的 文件 不 存在 。 这 个 时 候 
其 实 已 经 知道 文件 的 位 置 了 , shufflemaptask 把 数据 写 到 本 地 的 时 候 ,将 mapstatus 告诉 Driver， 
数据 放 到 了 什么 地 方 。 但 找 Driver 的 时 候 ， 正 在 GC， 导 致 不 响应 。 
因为 Spark 想 完 成 一 体 化 、 多 样 化 的 数据 处 理 中 心 或 者 称 一 统 大 数据 领域 的 一 个 美梦 ， 
肯定 不 甘于 自己 只 是 一 个 只 能 处 理 中 小 规模 的 数据 计算 平台 ， 所 以 Spark 最 根本 要 优化 和 通 
切 解决 的 问题 是 : 减少 Mapper 端 ShuffleWriter 产生 的 文件 数量 ， 这 样 便 可 以 能 让 Spark 从 
儿 百 台 集 群 的 规模 中 瞬间 变 成 可 以 支持 几 千 台 ， 甚 至 几 万 台 集群 的 规模 。 (一 个 Task 背后 可 
能 是 一 个 Core 去 运行 , 也 可 能 是 多 个 Core 去 运行 , 但 默认 情况 下 是 用 一 个 Core 去 运行 一 个 
Task) 。 

Spark shuffle 改进 的 根本 在 于 : 减少 Mapper 端 产生 的 shuffle Writer 文件 的 数量 , 这 是 精 
髓 之 所 在 ， 所 有 的 学 习 Spark Shuffle 从 这 个 角度 出 发 ， 才 能 够 最 直接 地 理解 Spark shuffle 不 
同 版 本 的 精髓 ， 并 进行 最 大 程度 的 性 能 调 优 ! 

减少 Mapper 端的 小 文件 带 来 的 好 处 是 : 

口 Mapper 端的 内 存 占用 变 少 了 。 

口 Spark 不 仅仅 可 以 处 理 小 规模 的 数据 ， 处 理 大 规模 的 数据 也 不 会 很 容易 达到 性 能 

口 Reducer 端 抓 取 数据 的 次 数 变 少 了 。 

口 网 络 通道 的 句柄 也 变 少 。 

口 极 大 地 减少 Reducer 的 内 存 不 仅 是 因为 数据 级 别 的 消耗 ， 而 且 是 框架 时 要 运行 的 必 

须 消耗 。 

Sorted-Based Shuffle 的 出 现 , 最 显著 的 优势 是 把 Spark 从 只 能 处 理 中 小 规模 的 数据 平台 ， 
变 成 可 以 处 理 无 限 大 规模 的 数据 平台 。 可 能 你 会 问 规模 真 这 么 重要 吗 ? 当然， 集群 规模 意味 
着 它 处 理 数据 的 规模 ， 也 意味 着 它 的 运算 能 

Sorted-Based Shuffle 不 会 为 每 个 Reducer 中 的 Task 生产 一 个 单独 的 文件 ， 相 反 ， 
Sorted-Based Shuffle 会 把 Mapper 中 每 个 ShuffleMapTask 所 有 的 输出 数据 Data 只 写 到 一 个 
文件 中 , 因为 每 个 ShuffleMapTask 中 的 数据 会 被 分 类 , 所 以 Sort-based Shuffle 使 用 index 文 
件 存储 具体 ShuffleMapTask 输出 数据 在 同一 个 Data 文件 中 是 如 何 分 类 的 信息 。 所 以 ， 基 于 
Sort-based Shuffle 会 在 Mapper 中 的 每 个 ShufftleMapTask 中 产生 两 个 文件 (并 发 度 的 个 数 X 
2) ， 如 图 31-6 所 示 。 
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图 31-6 Sorted-Based Shuffle 


它 会 产生 一 个 Data 文件 和 一 个 Index 文件 ， 其 中 Data 文件 是 存储 当前 Task 的 Shuffle 
输出 的 ， 而 Index 文件 则 存储 了 Data 文件 中 的 数据 通过 Partitioner 的 分 类 信息 ， 此 时 下 一 个 
阶段 的 Stage 中 的 Task 就 是 根据 这 个 Index 文件 获取 自己 需要 抓 取 的 上 一 个 Stage 中 
ShuffleMapTask 产生 的 数据 。 

假设 现在 Mapper 端 有 10 000 个 数据 分 片 ，Reducer 端 也 有 10 000 个 数据 分 片 ， 它 的 
并 发 度 是 100, 使 用 Sorted-Based Shuffle 会 产生 多 少 个 Mapper 端的 小 文件 , 答案 是 100X2 
=200 个 。 它 的 MapTask 会 独自 运行 , 每 个 MapTask 在 运行 的 时 候 写 两 个 文件 ， 运行 成 功 
后 就 不 需要 这 个 MapTask 的 文件 句柄 ， 无 论 是 文件 本 身 的 句柄 ， 还 是 索引 的 句柄 ， 都 不 需 
要 ,所 以 如 果 它 的 并 发 度 是 100 个 Core, 每 次 运行 100 个 任务 , 它 最 终 只 会 占用 200 个 文 
件 句 柄 ， 这 与 HashShuffle 的 机 制 不 一 样 ，HashShuffle 最 差 的 情况 是 Hashed 句柄 存储 在 内 
存 中 的 。 

Sorted-Based Shuffle 主要 在 Mapper 阶段 ， 这 个 与 Reducer 端 没有 任何 关系 ， 在 Mapper 
阶段 ， 它 要 进行 排序 ， 你 可 以 认为 是 二 次 排序 ， 它 的 原理 是 有 两 个 Key 进行 排序 ， 第 一 个 是 
PartitionId 进行 排序 , 第 二 个 是 本 身 数据 的 Key 进行 排序 。 如 图 31-7 所 示 , 它 会 把 PartitionId 
分 成 3 个 ， 索 引 分 别 为 0O、1、2， 这 个 在 Mapper 端 进行 排序 的 过 程 其 实 是 让 Reducer 去 抓 取 
数据 的 时 候 变 得 更 高 效 。 例 如 ， 说 第 一 个 Reducer， 它 会 到 Mapper 端的 索引 为 0 的 数据 分 
片 中 抓 取 数 据 。 
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图 31-7 Sorted-Based Shuffle 示意 图 
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具体 而 言 , Reducer 首先 找 Driver 去 获取 父 Stage 中 每 个 ShufleMapTask 输出 的 位 置 
信息 ， 根 据 位 置信 息 获 取 Index 文件 ， 解 析 Index 文件 ， 从 解析 的 Index 文件 中 获取 Data 
文件 中 属于 自己 的 那 部 分 内 容 。 

一 个 Mapper 任务 除了 有 一 个 数据 文件 外 ， 它 也 会 有 一 个 索引 文件 ，Map Task 把 数据 写 
到 文件 磁盘 是 根据 自身 的 Key 写 进去 的 ， 同 时 也 是 按照 Partition 写 进去 的 ， 因 为 它 是 顺序 写 
数据 ， 记 录 每 个 Partition 的 大 小 。 

Sort-Based Shuffle 的 弱点 : 

如 果 Mapper 中 Task 的 数量 过 大 ， 依 旧 会 产生 很 多 小 文件 ， 此 时 在 Shuffle 传 数据 的 
过 程 中 到 Reducer 端 ，Reducer 同时 会 需要 大 量 的 记录 进行 反 序列 化 ， 导 致 大 量 内 存 消 耗 和 
GC 的 巨大 负担 ， 造 成 系统 缓慢 ， 甚 至 崩溃 ! 

强制 在 Mapper 端 必须 排序 ， 这 里 的 前 提 是 本 身 数 据 根 本 不 需要 排序 。 

如 果 在 分 片 内 也 进行 排序 ， 此 时 需要 进行 Mapper 端 和 Reducer 端的 两 次 排序 ! 

它 要 基于 记录 本 身 进行 排序 ， 这 就 是 Sort-Based Shuffle 最 致命 的 性 能 消耗 。 

Spark 2.0 之 后 ,现在 只 有 一 种 SortShuffleManager， 废 弃 了 HashShuffleManager， 后 起 之 
秀 tungsten-sort 并 入 了 SortShuffleManager (根据 是 否 是 aggregate) 。aggregate 的 情况 不 适用 
于 tungsten-sort。 

















31.8 ”Spark Shuffle 令 人 费解 的 6 大 经 典 问题 


(1) Shuffle 的 第 一 大 问题 : 什么 时 候 进 行 Shuffle 的 抓 取 操作 ? Shuffle 具体 在 什么 时 候 
开始 运行 (是 在 一 边 Mapper 的 Map 操作 ,同时 进行 Reducer 端的 Shuffle 的 Reduce 操作 吗 )? 

错误 的 观点 : Spark 是 一 遍 Mapper 一 遍 Shuffle， 而 Hadoop 的 MapReduce 是 先 完 成 
Mapper， 然 后 才 进 行 Reducer 的 Shuffle。 

事实 : Spark 一 定 先 完成 Mapper 端 所 有 的 Tasks， 才 会 进行 Reducer 端的 Shuffle 过 程 。 

原因 : Spark 的 Job 是 按照 stage 线性 执行 的 ， 前 面 的 Stage 必须 执行 完 ， 才 能 够 执行 后 
面 的 Reducer 的 Shuffle 过 程 。 

补充 说 明 : Spark 的 Shuffle 是 边 拉 取 数 据 ， 边 进行 Aggregate 操作 。 其 实 与 Hadoop 
MapReduce 相 比 , 优势 确实 在 速度 上 。 但 是 也 会 导致 一 些 算法 不 容易 实现 , 如 求 平均 值 等 (但 
是 ，Spark 提供 了 一 些 内 置 函 数 )。 

(2) Shuffle 的 第 二 大 问题 : Shuffle 抓 过 来 的 数据 到 底 放 到 了 哪里 ? 

抓 过 来 的 数据 首先 肯定 是 放 在 Reducer 端的 内 存 缓冲 区 中 的 , Spark 曾经 有 版 本 要 求 只 能 
放 在 内 存 缓 存 中 ， 数 据 结构 类 似 于 HashMap(AppendOnlyMap) ， 显 然 特别 消耗 内 存 和 极 易 
出 现 OOM， 同 时 也 从 Reducer 端 极 大 地 限制 了 Spark 集群 的 规模 ， 现 在 的 实现 都 是 内 存 + 磁 
盘 的 方式 (数据 结构 使 用 ExtemalAppendOnlyMap ) 。 当 然 ， 大 家 也 可 以 通过 
spark.shuffle.spill=false 设置 只 能 使 用 内 存 ， 使 用 ExtemalAppendOnlyMap 的 方式 时 如 果 内 存 
使 用 达到 一 定 临界 值 后 ， 会 首先 尝试 在 内 存 中 扩大 ExtemalAppendOnlyMap 〈 内 部 有 实现 算 
法 ) ， 如 果 不 能 扩容 ， 才 会 Spill 到 磁盘 。 

(3) Shuffle 的 第 三 大 问题 : Shuffle 的 数据 在 Mapper 端 如 何 存 储 ， 在 Reducer 端 又 是 如 
何 知道 数据 具体 在 哪里 的 ? 
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在 Spark 的 实现 中 ， 每 个 Stage (里 面 是 ShufleMapTask) 中 的 Task 在 Stage 的 最 后 一 个 
RDD 上 一 定 会 注册 给 Driver 上 的 MapOutputTrackerMaster, Mapper 和 MapOutputTrackerMaster 
汇报 ShuffleMapTask 具体 数据 的 位 置 (具体 的 输出 文件 及 内 容 和 Reduce 有 关 ) 。Reducer 
是 向 Driver 中 的 MapOutputTrackerMaster 请 求 数据 的 元 数据 ,然后 和 Mapper 所 在 的 Executor 
进行 通信 。 

(4) Shuffle 的 第 四 大 问题 : 仅 从 HashShuffle 的 角度 讲 ， 我 们 在 Shuffle 的 时 候 到 底 可 以 
产生 多 少 Mapper 端的 中 间 文 件 ? 

例如 ， 有 M 个 Mapper、R 个 Reducer 和 C 个 Core， 那 么 HashShuffle 可 以 产生 多 少 个 
Mapper 的 中 间 文 件 ? 如 果 回 答 是 MXR 个 临时 中 间 文 件 ,就 是 有 问题 的 , 我 们 从 另外 一 个 角 
度 来 说 明 一 下 。 例 如 ， 在 实际 生产 环境 中 有 Executors (如 100 个 ) ， 每 个 Executor 上 有 C 
个 Cores (如 10 个 ) ,同时 有 RR 个 Reducer。 在 Hash Shuffle 情况 下 会 产生 多 少 Mapper 端的 
中 间 文 件 呢 ?是 否 可 以 回答 EXCXR 个 临时 文件 呢 ? 

答案 : 在 没有 Consolidation 机 制 的 情况 下 ， 第 一 个 问题 会 产生 MXR 个 中 间 文 件 ， 第 二 
个 问题 的 答案 是 实际 的 Task 的 个 数 XR; 在 有 Consolidation 机 制 的 情况 下 ， 第 一 个 问题 会 产 
生 CXR 个 文件 吗 ? 不 一 定 。 这 取决 于 一 个 越 来 越 重要 的 配置 参数 spark.task.cpus (该 参数 决 
定 了 运行 Spark 的 每 个 task 需要 多 少 个 Cores, 默认 情况 是 1 个 )， 假如 Spark.task.cpus 为 也 
那么 第 一 个 问题 的 答案 是 C/TXR， 第 二 个 问题 的 答案 是 EX C/TXR; 如 何 理解 Consolidation 
机 制 ， 可 以 认为 是 文件 池 的 复 用 。 

(5) Shuffle 的 第 五 大 问题 : Spark 中 Sorted-Based Shuffle 数据 结果 默认 是 排序 的 吗 ? 
Sorted-Based Shuffle 采用 什么 排序 算法 ? 这 个 排序 算法 的 好 处 是 什么 ? 

Spark Sorted-Based Shuffle 在 Mapper 端 是 排序 的 ， 包 括 Partition 的 排序 和 每 个 Partition 
内 部 元 素 的 排序 ! 但 在 Reducer 端 是 没有 进行 排序 的 ， 所 以 Job 的 结果 默认 不 是 排序 的 。 
Sorted-Based Shuffle 采用 Tim-Sort 排序 算法 的 ， 好 处 是 可 以 极为 高 效 地 使 用 Mapper 端的 排 
序 成 果 全 局 排序 。 

(6) Shuffle 的 第 六 大 问题 : : Spark Tungsten-Sorted Shuffle 在 Mapper 中 会 对 内 部 元 素 
进行 排序 吗 ? Tungsten-Sorted Shuffle 不 适用 于 什么 情况 ? 

Tungsten-Sorted Shuffle 在 Mapper 中 不 会 对 内 部 元 素 进行 排序 ( 它 只 会 对 Partition 进 
行 排序 ), 原因 是 它 自己 管理 的 三 进 制 序列 化 后 的 数据 ， 问 题 来 啦 : 数据 是 进入 Buffer 时 或 者 
是 进入 磁盘 时 才 进 行 排序 ? 答案 是 数据 的 排序 是 发 生 在 Buffer 要 满 了 Spill 到 磁盘 时 才 进行 
排序 的 。 所 以 ，Tungsten-Sorted Shuffle 对 内 部 不 会 进行 排序 。 

Tungsten-Sorted Shuffle 什么 时 候 会 退化 成 为 Sorted-Based Shuffle? 它 是 在 程序 有 
Aggregrate 操作 的 时 候 ; 或 者 是 Mapper 端 输出 的 Partition 大 于 16 777 216; 或 者 是 一 条 
Record 大 于 128MB 的 时 候 ， 原 因 也 是 因为 它 自己 管理 的 二 进 制 序列 化 后 的 数据 以 及 数组 指 
针管 理 范围 。 


























31.9 Spark Sort-Based Shuffle 排序 具体 实现 内 幕 和 源码 详解 


为 什么 讲解 Sorted-Based shuffle? 有 两 方面 的 原因 。 
(1) 可 能 有 些 朋 友 看 到 Sorted-Based Shuffle 的 时 候 ， 会 有 一 个 误解 ， 认 为 Spark 基于 
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Sorted-Based Shuffle 产 出 的 结果 是 有 序 的 。 
(2) Sorted-Based Shuffle 要 排序 ， 涉 及 一 个 排序 算法 。 这 部 分 内 容 可 选 学 。 
Sorted-Based Shuffle 的 核心 是 借助 于 ExternalSorter 把 每 个 ShuffleMapTask 的 输出 排 
序 到 一 个 文件 中 〈EileSegmentGroup) ， 为 了 区 分 下 一 阶段 Reducer Task 不 同 的 内 容 ， 它 还 
需要 有 一 个 索引 文件 (Index) 来 告诉 下 游 Stage 的 并 行 任务 ， 那 一 部 分 是 属于 你 的 ， 如 图 


31-8 所 示 。 
Shufe Map. Shufne Map 
Task Task 


(ExtemalSorter ) 人 ExtemalSorter ) 
























File Segment, 






Index 








File Segment, 


File 
































图 31-8 Sorted-Based Shuffle 图 


Shuffle Map Task 在 ExternalSorter 溢出 到 磁盘 的 时 候 ， 产 生 一 组 File (File Group 是 
hashShuffle 中 的 概念 ， 理 解 为 一 个 file 文件 池 ， 这 里 为 区 分 ， 使 用 File 的 概念 ，FileSegment 
根据 PartionID 排序 ) 和 一 个 索引 文件 ，File 里 的 FileSegement 会 进行 排序 ， 在 Reducer 端 
有 4 个 Reducer Task， 下 游 的 Task 可 以 很 容易 根据 索引 (index〉 定 位 到 这 个 File 中 的 哪 前 
分 FileSegement 是 属于 下 游 的 ， 它 相当 于 一 个 指针 ， 下 游 的 Task 要 向 Driver 确定 文件 在 
哪里 ， 然 后 到 了 这 个 File 文件 所 在 的 地 方 ， 实 际 上 会 与 BlockManager 进行 沟通 ， 
BlockManager 首先 会 读 一 个 Index 文件 , 根据 它 的 命名 规则 进行 解析 , 例如 说 下 一 个 阶段 的 
第 一 个 Task， 一 般 就 是 抓 取 第 一 个 Segment， 这 是 一 个 指针 定位 的 过 程 。 

再 次 强调 ，Sort-Based Shuffle 最 大 的 意义 是 减少 临时 文件 的 输出 数量 ， 且 只 会 产生 两 个 
文件 ， 一 个 是 包含 不 同 内 容 划 分 成 不 同 FileSegment 构成 的 单一 文件 File; 另 一 个 是 索引 文 
件 Index。 

一 件 很 重要 的 事情 : 在 Sorted-Shuffle 中 会 排序 吗 ? 从 测试 结果 看 ， 一 般 不 排序 (例如 ， 
可 以 在 Spark 2.0 中 做 一 个 wordcount 测试 ， 结 果 是 不 排序 的 ) 。 

Sort-Based Shuffle Mapper 端的 Sort and Spill 的 过 程 中 ，ApependOnlyMap 时 不 进行 排 
序 ，Spill 到 磁盘 时 再 进行 排序 。 

现在 从 源码 的 角度 看 一 下 Sorted-Based Shuffle 的 排序 ， 默 认 情 况 是 sort 类 型 ， 全 称 
org.apache.spark.shuffle.sort.SortShuffleManager。 

进入 org.apache.spark.shuffle.sort.SortShuffleManager， 在 SortShuffleManager 中 没 找 到 
ExtermalSorter， 那 我们 从 ShuffleMapTask 中 去 看 是 怎么 写 数 据 的 。 
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ShuffleMapTask.scala 的 源码 如 下 。 


于 override def runTask (context: TaskContext) : MapStatus = { 


2 // 使 用 广播 变量 的 RDD 反 序 列 化 

| val threadMXBean = ManagementFactory.getThreadMxBean 

A val deserializeStartTime = System.currentTimeMillis() 

val deserializeStartCpuTime = if (threadMXBean.isCurrentThread 


CpuTimeSupported) { 
> threadMXBean .getCurrentThreadCpuTime 
hs } else OL 
8 val ser = SparkEnv.get.closureSerializer.newInstance() 
9 val (rdd, dep) = ser.deserialize[ (RDD[ ], ShuffleDependency[ ， ， 
])]( 


340: ByteBuffer.wrap (taskBinary.value), Thread.currentThread. 
getContextClassLoader) 

a executorDeserializeTime = System.currentTimeMillis() - deserialize 
StartTime 

2 executorDeserializeCpuTime = if (threadMXBean.isCurrentThreadCpuTime 
Supported) { 

Le threadMXBean .getCurrentThreadCpuTime - deserializeStartCpuTime 

汪汪 } else OL 

15. 

Ge Var writer: ShuffleWriter[Any, Any] = null 

es try { 

18. Val manager = SparkEnv.get.shuffleManager 

198 writer =manager.getWriter[Any, Any] (dep.shuffleHandle, partitionId, 
context) 

08 writer.write (rdd.iterator (partition, context) .asInstanceOf [Iterator 

[_<: Product2 [Any, Any]]]) 

2 writer.stop(success = true) .get 

公 2- } catch { 

和 35 case e: Exception => 

2 Ery 

25s if (writer != null) { 

pA writer.stop(success = false) 

之 于 } 

人 82 } catch  { 

pp case e: Exception => 

S05 log.debug ("Could not stop writer", e) 

Ss } 

局 throw e 

3 } 

234 


其 中 ，manager = SparkEnv.get.shuffleManager 是 从 SparkEnv 中 通过 反射 获取 的 
shuffleManager， 就 是 SortShuffleManager。 那 manager.getWriter 是 SortShuffleManager 的 
getWriter。 

SortShuffleManager.scala 的 getWriter 的 源码 如 下 。 


hs override def getWriter[K, V]( 

这 handle: ShuffleHandle, 

3 mapId: Int, 

六 context: TaskContext): ShuffleWriter[K, V] = { 

le numMapsForShuffle.putIfAbsent ( 

6. handle.shufflelId, handle.asInstanceOf[BaseShuffleHandle[ , ，]]. 
numMaps) 

hs val env = SparkEnv.get 

外、 handle match { 
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case unsafeShuffleHandle: SerializedShuffleHandle[K @unchecked, V 
@unchecked] => 

0 new UnsafeShuffleWriter( 

E> env.blockManager, 

I shuffleBlockResolver.asInstanceOf [IndexShuffleBlockResolver], 

多 context .taskMemoryManager () ， 

3 unsafeShuffleHandle, 

15s mapId, 

16. context, 

17: env.conf) 

18, case bypassMergeSortHandle: BypassMergeSortShuffleHandle[K @unchecked, 
V Qunchecked] => 

9 new BYypassMergeSortShuffleWriter( 

人 20 env.blockManager, 

a shuffleBlockResolver.asInstanceOf [IndexShuffleBlockResolver], 

这 bypassMergeSortHandle, 

3 mapId, 

这 是 context, 

Ea env.conf) 

受权 case other: BaseShuffleHandle[K aunchecked，V @unchecked, ] => 

和 new SortShuffleWriter (shuffleBlockResolver, other, mapId, context) 

6 } 

9 


SortShuffleManager getWriter Handle 提供 了 3 种 方式 。 

口 unsafeShuffleHandle: tungsten 深度 优化 的 方式 。 

口 bypassMergeSortHandle: Sorted-Shuffle 在 一 定 程度 上 可 以 退化 为 hashShuffle 的 方式 。 
口 BaseShuffleHandle: 是 SortShuffleWriter。 

再 回 到 之 前 ShuffleMapTask 中 ， 获 取 shuflemanager getWriter 之 后 ， 要 write 写 数据 。 
ShuffleMapTask.scala 的 源码 如 下 。 


:NS Var writer: ShuffleWriter[Any, Any] = null 

tev ( 

3 Val manager = SparkEnv.get.shuffleManager 

4. writer =manager.getWriter[Any, Any] (dep.shuffleHandle, partitionId, 
context) 

5 writer.write (rdd.iterator (partition, context) .asInstanceOf [Iterator 

[ <: Product2[Any, Any]]]) 
[| writer.stop(success = true) .get 


SortShuffleWriter 的 write 方法 的 代码 非常 清晰 、 简 洁 。 我 们 终于 看 到 了 ExternalSorter。 
SortShuffleWriter.scala 的 源码 如 下 。 


override def write (records: Iterator [Product2[K，V]]): Unit = { 


:I 

过 

3 new ExternalSorter[K, V, C]( 

4. context, dep.aggregator, Some (dep.partitioner), dep.keyOrdering, 

dep.serializer) 

es 

ExternalSorter.scala 中 有 两 个 很 重要 的 数据 结构 。 

(1) 在 Mapper 端 进 行 combine: PartitionedAppendOnlyMap 是 map 类 型 的 数据 结构 ， 
map 是 key-value ， 在 本 地 进行 聚合 ， 在 本 地 Key 值 不 变 ，Value 不 断 更 新 ; Partitioned 
AppendOnlyMap 底层 还 是 一 个 数组 ， 基 于 数组 实现 map 的 原因 是 更 节省 空间 ， 效 率 更 高 。 
那么 ， 直 接 基 于 数组 怎么 实现 map: 把 数组 的 标记 0、1、2、3、4、… 把 偶数 设置 为 map 的 
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Key 值 ， 把 奇数 设置 为 map 的 value 值 。 
(2) 在 Mapper 端 没 有 combine: 使 用 PartitionedPairBuffer。 
ExternalSorter .scala 的 源码 如 下 。 





i 了 Qvolatile private var map = new PartitionedAppendonlyMap[K, C] 
2. volatile private var buffer = new PartitionedPairBuffer[K, C] 


下 面 看 一 下 insertAll 方法。 
ExternalSorter.scala 的 源码 如 下 。 


Ys def insertAll (records: Iterator[Product2[K, V]]): Unit = { 
2 // 待 办 事项 TODO: 如 果 发 现汇 聚 系数 不 高 ， 就 停止 合并 

局 val shouldCombine = aggregator.isDefined 

4. 

5 if (shouldCombine) { 

[3 // 使 用 AppendonlyMap， 首 先 在 内 存 中 组 合 值 

ye val mergeValue = aggregator.get .mergeValue 

8. val createCombiner = aggregator.get.createCombiner 

9. var kv: Product2[K, V] = null 

10s val update = (hadValue: Boolean, oldValue: C) => { 

Em if (hadValue) mergeValue (oldValue, kv. 2) else createCombiner (kv. 2) 
2 } 

EE 沪 while (records.hasNext) { 

14. addElementsRead() 

39: kv = records .next () 

16 . map.changeValue ( (getPartition(kv. 1), kv. 1), update) 
多 maybeSpillCollection (usingMap = true) 

8 } 

有 } else { 

0 // 将 值 插入 缓冲 区 

Ze while (records.hasNext) { 

2 addElementsRead() 

3 val kv = Tecords .next () 

ZA buffer.insert (getPartition(kv. 1), kv. 1, kv. 2.asInstanceOf[C]) 
25e maybeSpillCollection (usingMap = false) 

26- } 

的 } 

28=070} 


首先 判断 是 否 聚 合 shouldCombine: 
(1) 如 果 聚 合 ，map.changeValue 此 时 Key 不 变 ， 在 历史 Value 基础 上 进行 combine。 
(2) 如 果 没 有 聚合 ， 就 直接 在 Buffer 数据 结构 中 插入 一 条 记录 。 

全 注意 : 这 时 没有 排序 。 


继续 回 到 SortShuffleWriter 的 write 方法 : 根据 dep.shuffleId, mapId 获取 输出 文件 output 
写 数 据 ， 根 据 dep.shuffleId, mapId, partitionLengths, tmp，tmp 是 中 间 临 时 文件 写 入 文件 和 更 
新 索引 。task 运行 结束 后 返回 的 mapStatus 数据 结构 ， 告 诉 数据 放 在 哪里 。 
SortShuffleWriter.scala 的 write 的 源码 如 下 。 








val output = shuffleBlockResolver.getDataFile(dep.shufflelId, mapId) 
val tmp = Utils.tempFileWith (output) 
vt 
val blockId = ShuffleBlockId (dep.shufflelId, mapId， IndexShuffleBlock 
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Resolver.NOOP REDUCE ID) 


| 启 val partitionLengths = sorter.writePartitionedFile (blockId, tmp) 

ya shuffleBlockResolver.writeIndexFileAndCommit (dep.shuffleId, mapIdqd, 
partitionLengths, tmp) 

2 mapStatus = MapStatus (blockManager .shuffleServerId, partitionLengths) 


writePartitionedFile 方法 ， 实 现 了 spil 和 不 spil 怎么 做 。 
ExternalSorter.sala 的 源码 如 下 。 


1. def writePartitioneqFile( 

blockId: BlockIgd, 

号 outputFile: File): Array[Long] = { 

4. 

5 // 跟 踪 输 出 文件 中 每 个 范围 的 位 置 

6 val lengths = new Array[Long] (numPartitions) 

沪 val writer = blockManager .getDiskWriter (blockId, outputFile, serInstance, 
fileBufferSize,context.taskMetrics() .shuffleWriteMetrics) 

加 

9 . if (spills.isEmpty) { 

TO // 在 只 有 内 存 中 数据 的 情况 下 

11. val collection = if (aggregator.isDefined) map else buffer 

2 val it = collection.destructiveSortedWritablePartitionedIterator 

(comparator) 

A while (it.hasNext) { 

人 val partitionId = it.nextPartition() 

Se while (it.hasNext && it.nextPartition() == partitionId) { 

ne it.writeNext (writer) 

Ts } 

LB val segment = writer.commitAndGet () 

FE lengths (partitionId) = segment.length 

20: } 

2 } else { 

228 // 我 们 必须 执行 合并 排序 ， 通 过 分 区 获得 一 个 迭代 器 ， 并 直接 写 入 所 有 内 容 

2 for ((id, elements) <- this.partitionedIterator) { 

245 if (elements.hasNext) { 

5 for (elem <- elements) { 

26. writer.write(elem. 1, elem. 2) 

2 } 

282 val segment = writer.commitAndGet () 

2 lengths (id) = segment .length 

30. 3. 

3 } 

S25 + 

三 后 

3 writer.close() 

ys context.taskMetrics() .incMemoryBytesSpilled (memoryBytesSpilled) 

36. context .taskMetrics () .incDiskBytesSpilled (diskBytesSpilled) 

二 了 Context -taskMetrics () .incPeakExecutionMemory (PeakMemoryUsedBytes) 

385 

必 信 局 lengths 

40. } 


里 面 有 一 句 很 关键 的 代码 : val it = collection.destructiveSortedWritablePartitionedIterator 





(comparatorm)， 生 成 一 个 it WritablePartitionedIterator 写 数据 。 


WritablePartitionedPairCollection.scala 的 源码 如 下 。 


ks private[spark] trait WritablePartitionedPairCollection[K, V] { 
次 /** 


we 
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Es 


1 


* 将 分 区 中 的 key-value 键 值 对 插入 到 集合 中 
守 认 
def insert (partition: Int, key: K, value: V): Unit 


/** 

* 按 分 区 ID 顺序 遍历 数据 ， 然 后 按 给 定 比较 器 进行 迭代 ， 这 可 能 破坏 底层 集合 

/ 

def partitionedDestructiveSortedIterator (keyComparator: Option[Comparator 


[K]]) 
3 Iterator[((Int, K), WI] 


从 这 个 地 方 看 到 了 排序 ， 以 partition ID 进行 排序 ， 实 现 快速 的 写 、 方 便 的 读 操 作 ， 关 键 
是 对 Key 进行 操作 。 

下 面 看 一 下 继承 结构 PartitionedAppendOnlyMap。 

PartitionedAppendOnlyMap.scala 的 源码 如 下 。 


: 
2 


加 
4. 


private[spark] class PartitionedAppendonlyMap[K, V] 
extends SizeTrackingAppendonlyMap[ (Int, K), V] with WritablePartitioned 
PairCollection[K, V] { 


def partitionedDestructiveSortedIterator (keyComparator: Option[Comparator 
[K]]) 
: Iterator[((Int, K), V)] = { 
val comparator = keyComparator.map (partitionKeyComparator) .getOrElse 
(partitionComparator) 
destructiveSortedIterator (comparator) 


) 


def insert (Partition: Int, key: K, value: V) : Unit = { 
update ( (partition, key), value) 
} 


点 击 destructiveSortedIterator: 
AppendOnlyMap.scala 的 源码 如 下 。 


户 


def destructiveSortedIterator (keyComparator: Comparator [K] ) : Iterator 
{sg 
destroyed = true 
// 将 key-values 键 值 对 插入 到 底层 数组 的 前 面 
Var keyIndex, newIndex = 0 
while (keyIndex < capacity) { 
if (data(2 * keyIndex) != null) { 
data(2 * newIndex) = data(2 * keyIndex) 
data(2 * newIndex + 1) = data(2 * keyIndex + 1) 
newIndex += 1 
} 
keyIndex += 1 
} 


assert (curSize == newIndex + (if (haveNullValue) 1 else 0)) 


new Sorter (new KVArraySortDataFormat [K, AnyRef]) .sort (data, 0, newIndex, 
keyComparator) 


new Iterator[(K, V)] { 
var i=0 
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19. var nullValueReady = haveNullValue 

20. def hasNext: Boolean = (i < newIndex || nullValueReady) 

> 中 罗 def next(): (K, V) = { 

区 if (nullValueReady) { 

23 nullValueReady = false 

2 (null.asInstanceOf [K], nullValue) 

29%> oblse lf 

26. val item = (data(2 * i).asInstanceOf[K], data(2 * i + 1) .as 
InstanceOf [V]) 

ls i+=1 

28. item 

2 } 

305 | 

Ss ) 

5 于 


其 中 关键 的 地 方 有 一 个 new Sorter。 
AppendOnlyMap.scala 的 源码 如 下 。 


上 new Sorter (new KVArraySortDataFormat [K, AnyRef]) .sort(data, 0, newIndex, 
keyComparator) 


Sorter 里 面 使 用 的 是 timSort 算法 。 
Sorter.scala 的 源码 如 下 。 


1 private[spark] 
2 class Sorter[K, Buffer] (private val s: SortDataFormat[K, Buffer]) { 
3 
4 private val timSort = new TimSort(s) 
5 
6 /** 
*# 对 范围 内 [lo，hi) 的 输入 缓冲 区 进行 排序 
攻克 区 
Be def sort (a: Buffer, lo: Int, hi: Int, c: Comparator[ >: K]): Unit = { 
9 timSort.sort(a, lo hi, c) 
LO 
i 


31.10 Spark 1.6.X 以 前 Shuffle 中 JVM 内 存 使 用 及 配置 
内 幕 详情 


Spark 1.6X 以 前 Shuffle 中 JVM 内 存 使 用 及 配置 内 幕 详情 : Spark 到 底 能 够 缓存 多 少数 
据 ，Shuffle 到 底 占用 了 多 少数 据 ， 磁 盘 的 数据 远 远 比 内 存 小 却 还 是 报告 内 存 不 足 ? 本 节 将 讲 
解 以 下 内 容 。 

口 JVM 内 存 使 用 架构 剖析 。 

口 Spark 集群 在 1.6.X 以 前 中 JVM 到 底 可 以 缓存 多 少数 据 。 

口 Spark 集群 在 1.6.X 以 前 中 Shuffle JVM 到 底 缓存 多 少数 据 。 
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口 Spark on Yam 实际 计算 对 内 存 的 使 用 案例 。 
1. JVM 内 存 使 用 架构 剖析 


JVM 有 很 多 不 同 的 区 ， 最 开始 的 时 候 ， 它 会 通过 类 装载 器 把 类 加 载 进 来 ， 在 运行 期 数据 
区 中 有 “本 地 方法 栈 ”“ 程 序 计数 器 ”“Java 栈 ”“Java 堆 ” 和 “方法 区 ”以 及 本 地 方法 接 
口 和 它 的 本 地 方法 库 。 从 Spark 的 角度 来 谈 代 码 的 运行 和 数据 的 处 理 ， 主 要 是 谈 Java 堆 
(Heap) 空间 的 运用 。JVM 的 体现 架构 : 
口 本 地 方法 栈 : 在 梯 归 的 时 候 至 关 重 要 。 
口 程序 计数 器 : 这 是 一 个 全 区 计数 器 ， 对 于 线程 切换 至 关 重 要 。 
口 Java 栈 (Stack) : Stack 区 属于 线程 私有 ， 高 效 的 程序 一 般 都 是 并 发 的 ， 每 个 线程 
都 会 包含 一 个 Stack 区 域 ，Stack 区 域 中 含有 基本 的 数据 类 型 以 及 对 象 的 引用 ， 其 
他 线程 均 不 能 直接 访问 该 区 域 。Java 栈 分 为 三 大 部 分 : 基本 数据 类 型 区 域 、 操 作 指 
令 区 域 、 上 下 文 。 

口 Java 堆 (Heap) : 存储 的 全 部 都 是 对 象 实例 ， 对 象 实例 中 一 般 都 包含 了 其 
数据 成 员 以 及 与 该 对 象 对 应 类 的 信息 ， 它 会 指向 类 的 引用 一 个 ， 不 同 线程 肯定 要 操 
作 这 个 对 象 ; 一 个 JVM Sa -个 Heap 区 域 ， 而 且 该 区 域 被 所 

口 方法 区 : 又 名 静态 成 员 区 域 ， 包 含 整个 程序 的 class、static 成 员 等 。 类 本 身 的 字 节 码 
是 静态 的 ， 它 会 被 所 有 的 线程 共享 ， 是 全 区 级 别 的 。 

JVM 内 存 使 用 示意 图 如 图 31-9 所 示 。 


类 装载 子 系统 
a 4 


区 








Java 栈 





椒 地 方 
| 法 术 





Java 堆 











四 运行 期 数据 区 


由 个 执行 引擎 | 灾 
一 一 本 地 方法 接口 








图 31-9 JVM 内 存 使 用 示意 图 


对 于 Spark， 我 们 这 里 研究 的 是 JVM 的 Heap 堆 。 对 象 放 在 堆 中 ， 堆 上 才 有 Spark 的 对 
象 。 关 于 Heap Area: @ 存储 的 全 部 都 是 OBJECT 对 象 实例 ， 对 象 实例 中 一 般 包 含 了 其 数据 
成 员 及 对 象 对 应 的 Class 信息 ; @ 一 个 JVM 实例 在 运行 的 时 候 只 有 一 个 Heap 区 域 ， 该 区 域 
被 所 有 的 线程 共享 。 注 意 : GC 回收 的 是 堆 上 的 内 容 ! 

Spark 内 存 示意 图 如 图 31-10 所 示 。 左 侧 图 是 Spark 1.6X 之 后 的 内 存 管理 分 配 图 ; 右 侧 
图 是 Spark 1.6X 之 前 的 内 存 示意 图 。 

在 回答 Spark JVM 到 底 可 以 缓存 多 少数 据 这 个 问题 前 ， 首 先 了 解 一 下 JVM Heap 在 
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Spark 中 是 如 何 分 配 内 存 比例 的 。 无 论 你 定义 Spark.Executormemory 的 内 存 空 间 有 多 大 ， 
Spark 必然 会 定义 一 个 安全 空间 , 默认 情况 下 只 会 使 用 Java 堆 上 的 90% 作为 安全 空间 ,从 
单个 Executor 的 角度 讲 ， 就 是 Heap Size x 90%。 

































































































储 内 存 5 向 三 
Spark.Memory.storageFraction| Spark.Memory.fraction 
0.5 或 者 50% 0.75 或 者 75% 存储 内 存 
存储 内 存 (内 存 使 用 安全 系统 的 60%) 
二 Spark.Storage.memoryFraction 
执行 内 存 
Java 维 内 存 - 预 留 内 
用 户 内存 i 《内存 使 用 安全 系统 的 20% 
4 LE Spark.Shuffle.memoryFraction 
1.0-Spark.Memory.fraction 
1.0-0.75=0.25 或 者 25% 内 存 使 用 安全 系统 〈 堆 空间 的 90%) 
人 Spark.Storage.safetyFraction 
久 内 存 Java 庶 所 机 堆 空 间 (S12MB》 
Spark 预 留 300MB 内 存 Spark.Executormemory 














Spark1.6.x 之 后 的 内 作 图 Spark1.6.x 之 前 的 内 存 孙 意图 
(CSpark 2.2.0) 


图 31-10 Spark 内 存 示意 图 


JVM Heap 默认 是 512MB， 机 器 的 内 存 如 果 是 128GB， 那 么 机 器 的 内 存 就 没有 用 起 来 ， 
因此 , 实际 运行 时 , JVM Heap 需要 配置 ! 配置 参数 为 Spark.Executor.memory。 例如 ,Executor 
的 可 用 Heap 大 小 是 10GB， 实 际 上 Spark 只 能 使 用 90%， 也 就 是 9GB 的 大 小 。( 这 里 是 指 

-个 Executor, 还 有 1GB 被 JVM 使 用 了 。90% 这 个 参数 是 由 spark.storage.safetyFraction 控制 
的 (假如 Executor 配置 使 用 了 100GB， 剩 余 了 10GB 的 内 存 没 使 用 ， 那 可 以 调 高 到 95%， 不 
过 一 般 不 会 去 调整 。) 


2. Spark 集 群 在 1.6.X 以 前 中 JVM 到 底 可 以 缓存 多 少数 据 


单个 Executor 的 Cache 数据 量 的 计算 公式 : 

Heap Size X park.Storage.safetyFraction X Spark. Storage.memoryFraction 

从 单个 Executor 的 角度 讲 : Heap Size X 90%(Spark.Storage.safetyFraction) X 60% 
(Spark.Storage.memoryFraction )=Heap Size X 54%。 如 果 我 们 的 Executor Heap 的 大 小 是 10GB， 
从 理论 上 讲 ， 单 个 Executor 可 以 缓存 的 数据 大 小 是 5.4GB， 差 不 多 占 一 半 。 缓 存 大 小 的 控制 
参数 由 spark.storage.safetyFraction 和 spark.storage memoryFraction 共同 决定 。 如 果 是 100 个 
Executor， 每 个 的 Heap 是 10GB， 那 么 从 理论 上 讲 是 可 以 缓存 540GB 的 数据 ， 普 通 规模 的 计 
算 基本 都 可 以 满足 了 。 

StaticMemoryManager.scala 的 getMaxStorageMemory 方法 的 源码 如 下 。 





二 /** 
* 返 回 存储 区 域 可 用 的 内 存 总 量 ， 以 字 节 为 单位 
二 al 
< private def getMaxStorageMemory (conf: SparkConf): Long = { 
4 val systemMaxMemory = conf.getLong("spark.testing.memory", Runtime. 


getRuntime .maxMemory) 
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val memoryFraction = conf .getDouble ("spark.storage.memoryFraction", 0.6) 
val safetyFraction = conf.getDouble ("spark.storage.safetyFraction", 0.9) 
(systemMaxMemory * memoryFraction * safetyFraction) .toLong 


} 
3. Spark 集 群 在 1.6.X 以 前 中 Shuffle JVM 到 底 缓存 多 少数 据 


-| 


Shuffle 在 一 个 Executor 的 Heap 占用 大 小 计算 公式 : Heap Size X Spark.Storage. 
safetyFraction X Spark.Shuffle memoryFraction， 默 认 情 况 下 是 Heap Size X 90% X 20%=Heap 
Size X 18%。 

StaticMemoryManager.scala 的 getMaxExecutionMemory 方法 的 源码 如 下 。 





1. private def getMaxExecutionMemory (conf: SparkConf): Long = { 
val systemMaxMemory = conf.getLong("spark.testing.memory", Runtime. 
getRuntime .maxMemory) 





三 
上 if (systemMaxMemory < MIN MEMORY BYTES) { 
5 throw new IllegalArgumentException(s"Systemmemory $systemMaxMemory 
muUTE 
1 s"be at least $MIN MEMORY BYTES. Please increase heap size using 
the --driver-memory " + 
s"option or spark.driver.memory in Spark configuration.") 
8. } 
5 if (conf.contains("spark.executor.memory")) { 
0. Val executorMemory = conf.getSizeAsBytes ("spark.executor.memory") 
和 if (executorMemory < MIN MEMORY BYTES) { 
2 throw new IllegalArgumentException (5"Executor memory $executorMemory 
must be at least "+ 
3 S"SMIN MEMORY BYTES. Please increase executor memory using the "+ 
4. s"--executor-memory option or spark.executor.memory in Spark 
configuration.") 
i } 
6. } 
i val memoryFraction = conf.getDouble ("spark.shuffle.memoryFraction", 0.2) 
8. val safetyFraction = conf.getDouble ("spark.shuffle.safetyFraction"，0.8) 
9 (systemMaxMemory * memoryFraction * safetyFraction) .toLong 
20: 1} 
21. 
ed) 


Unroll 占用 空间 计算 及 对 缓存 数据 的 影响 是 什么 ? Unroll 是 反 序 列 化 的 过 程 。 需 要 反 序 
列 化 的 时 候 ， 占 20%， 占 用 Cache 的 空间 。 

计算 公式 : ”Heap Size X Spark.Storage.safetyFraction X Spark.Storage memoryFraction X 
Spark.Storage.unrollFraction， 默 认 情 况 是 Heap SizeX 10.08%。 

对 Cache 缓存 数据 的 影响 ， 由 于 Unroll 是 一 个 优先 级 高 的 操作 ， 进 行 Unroll 操作 的 时 候 
会 占用 Cache 空间 ,又 可 以 挤 掉 缓 存在 内 存 中 的 数据 , 如果 该 数据 的 存储 级 别 是 MemoryOnly， 
则 该 数据 丢失 。 (有 时 运行 好 好 的 ， 却 发 现 有 数据 丢失 ， 就 是 这 个 原因 。) 这 里 有 一 个 细节 : 
Spark 集群 在 1.6.X 以 前 中 Shuffle JVM 使 用 的 内 存 其 实 还 不 到 Heap Size 的 18%。 需 考 
虚 Spark.Shuffle.safetyFraction 参数 ， 那 Shuffle 在 一 个 Executor 的 Heap 占用 大 小 计算 公式 调 
晒 为 ; 
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Heap Size X Spark.Storage.safetyFraction X Spark.Shuffle .memoryFraction X Spark.Shuffle. 
safetyFraction=Heap SizeX902%6X20X809%=14.49%0。 
StaticMemoryManager.scala 的 maxUnrollMemory 的 源码 如 下 。 


// 数 据 展开 时 的 最 大 数量 的 字 节 块 


2 private val maxUnrollMemory: Long = { 

3 (maxOnHeapStorageMemory * conf .getDouble ("spark.storage.unrollFraction", 
0.2)) .toLong 

4. 


4. Spark on Yarn 实 际 计 算 对 内 存 的 使 用 案例 


Spark on Yam 内 存 使 用 示意 图 如 图 31-11 所 示 。 
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Requires Requires Requires Requires 
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图 31-11 Spark on Yam 内 存 使 用 示意 图 


Spark 运行 在 Yam 上 , 它 有 Driver 和 Executor 两 部 分 , 在 Driver 部 分 有 一 个 内 存 控制 
参数 ，Spark 1.6X 以 前 是 spark.driver.memory， 在 实际 生产 环境 下 建 义 配置 成 2GB。 如 果 
Driver 比较 繁忙 或 者 是 经 常 把 某 些 数据 收集 到 Driver 上 ， 建 义 把 这 个 参数 调 大 。 

图 31-11 的 左边 是 Executor 部 分 ， 它 是 被 Yam 管理 的 ， 每 台 机 器 上 都 有 一 个 Node 
Manager; Node Manager 是 被 Resources Manager 管理 的 ， Resources Manager 的 工作 主要 是 
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管理 全 区 级 别 的 计算 资源 ， 计 算 资 源 核 心 就 是 内 存 和 CPU， 每 台 机 器 上 都 有 一 个 Node 
Manager 来 管理 当前 内 存 和 CPU 等 资源 。Yam 一 般 与 Hadoop 耦合 ， 它 底层 会 有 HDFS 
Node Manager， 主 要 负责 管理 当前 机 器 进程 上 的 数据 ， 并 且 与 HDFS Name Node 进行 通信 。 
每 个 节点 上 至 少 有 两 个 进程 : 一 个 是 HDFS Data Node， 负 责 管理 磁盘 上 的 数据 ， 另 一 
个 是 Yam Node Manager， 负 责 管 理 执行 进程 。 在 这 两 个 Node 的 下 面 有 两 个 Executors， 每 
个 Executor 里 运行 的 都 是 Tasks。 从 Yam 的 角度 讲 , 会 配置 每 个 Executor 所 占用 的 空间 ， 
以 防止 资源 竞争 。Yam 里 有 一 个 叫 Node Memory Pool 的 概念 ， 可 以 配置 64GB 或 者 是 
128GB，Node Memory Pool 是 当前 节点 上 总 共 能 够 使 用 的 内 存 大 小 。 
图 31-11 中 , 这 两 个 Executors 在 两 个 不 同 的 进程 (JVM#1 和 JVM#2) 中 ,里面 的 Task 
是 并 行 运行 的 ，Task 运行 在 线程 中 ， 但 你 可 以 配置 Task 使 用 线程 的 数量 ， 例 如 ，2 条 线程 
或 者 是 4 条 线程 , 默认 都 是 一 条 线程 去 处 理 一 个 Task, 你 也 可 以 用 spark.executor.cores 去 配 
置 可 用 的 Core 以 及 spark.executor.memory 去 配置 可 用 的 RAM 的 大 小 。 
在 Yarn 上 启动 Spark Application 时 ,我 们 会 通过 num-executor 或 者 spark.executor.instance 
在 Yam 上 指定 会 有 多 少 Executor 实例 运行 当前 的 程序 ， 同 时 也 会 指定 每 个 Executor 会 使 用 
多 少 内 存 : -executor-memory 或 者 spark.executor.memory; 同时 也 会 通过 -executor-cores 或 者 
spark.executor.cores 来 指定 每 个 Executor 可 以 使 用 多 少 个 Cores， 同 时 会 通过 spark.task.cpus 
来 指定 每 个 Task 的 运行 需要 多 少 个 Cores。 对 于 Driver， 一 般 会 通过 driver-memory 或 者 
spark.driver.memory 来 指定 Driver 内 存 的 大 小 。 
例如 ，Yarm 集群 上 有 32 个 Nodes 来 运行 的 NodeManager， 每 个 Node 的 内 存 是 64GB， 
每 个 Node 的 Cores 是 32Cores， 假 如 每 个 Node 我 们 分 配 两 个 Executors， 那 么 我 们 就 可 以 把 
每 个 Executor 的 内 存 分 配 为 28GB，Cores 分 配 为 12 Cores， 每 个 Spark Task 在 运行 的 时 候 具 
需要 一 个 Core， 那 么 32nodes 同时 可 以 运行 : 32X2X12/1=768 task slots。 也 就 是 说 ， 这 个 集 
群 可 以 并 行 运行 768 个 Task， 如 果 Job 超过 了 768 个 Task， 则 需要 排队 。 
那么 ， 这 个 集群 规模 可 以 缓存 多 少数 据 呢 ?理论 上 ，32X2X28X0.9X0.6=967.68GB， 
这 个 缓存 数据 量 对 于 普通 的 Spark Job 而 言 是 完全 够 用 的 。 而 实际 上 , 在 运行 中 你 可 能 只 能 组 
存 900GB 的 数据 ， 因 为 还 有 Unroll 的 操作 及 其 他 的 事情 。 内 存 中 900GB 的 数据 从 磁盘 存储 
角度 数据 有 多 大 ? 还 是 900GB 吗 ? 不 是 , 一般 的 数据 从 磁盘 读 进 内 存 都 会 膨胀 好 几 倍 ， 和 压 
缩 、 序 列 化 反 序列 框架 有 关 ， 所 以 ， 在 磁盘 上 也 就 300GB 左右 的 数据 。 
这 个 时 候 对 内 存 有 一 个 评估 ， 以 前 有 同学 问 : 集群 1TB 的 内 存 , 数据 才 500GB、600GB， 
为 什么 每 次 加 载 都 OOM 呢 ? 现在 我 们 就 非常 清楚 了 ! 
在 Yam 上 启动 Spark Application 时 可 以 通过 以 下 参数 来 调 优 。 
口 用 -num-executor 或 者 spark.executor.instances 来 指定 运行 时 所 需要 的 Executor 的 
个 数 。 
口 用 -executor-memory 或 者 spark.executor.memory 来 指定 每 个 Executor 在 运行 时 所 
需要 的 内 存 空间 。 
口 用 -executor-cores 或 者 spark.executor.cores 来 指定 每 个 Executor 在 运行 时 所 需要 的 
Cores 的 个 数 。 
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口 用 -driver-memory 或 者 spark.driver.memory 来 指定 Driver 内 存 的 大 小 。 
口 用 spark.task.cpus 来 指定 每 个 Task 运行 时 所 需要 的 Cores 的 个 数 。 


31.11 Spark 2.2.X 中 Shuffle 中 内 存 管理 源码 解密 : 
StaticMemory 和 UnifiedMemory 


本 节 从 源码 的 角度 了 解 Spark 内 存 管理 是 怎么 设计 的 ， 从 而 知道 应 该 配置 哪个 参数 ， 让 
程序 运行 更 适合 你 的 实际 需要 。 
口 了 解 MemoryManger: Unified Memory Manager、Static Memory Manager 以 及 它们 
的 核心 功能 与 方法 。 
口 了 解 MemoryPool: StorageMemoryPool、ExecutionMemoryPool 以 及 它们 的 核心 功能 
与 方法 。 
Spark Shuffle 的 内 存 管 理 有 两 种 : 一 种 是 联合 内 存 管理 器 (Spark Unified Memory) ; 
种 是 静态 内 存 管 理 器 (Spark Static Memory) 。 首 先 ， 这 两 个 类 都 是 继承 MemoryManager， 
MemoryManager 是 一 个 抽象 类 , 我 们 在 应 用 程序 中 使 用 接口 就 是 为 了 包容 未 来 的 变化 , 因为 
现在 只 有 两 个 内 存 管理 器 ， 将 来 可 能 会 有 好 几 种 内 存 控制 器 ， 如 图 31-12 所 示 。 
















MemoryManager 
onHeapStorageMemoryPool 
onHeapExecutionMemoryPool 
acquireExecutionMemory 
acquireStorageMemory 
acquireUnrollMemory 











releaseExecutionMemory 
releaseStorageMemory 
pr 





StaticMemoryManager 
maxUnrollMemory 








acquireExecutionMemory te 

acquireStorageMemory acquireStorageMemory 

acquireUnrollIMemory acquireUnrollMemory 

getMaxExecutionMemory getMaxMemory 
tMaxStorageMemory 





图 31-12 MemoryManager 示意 图 


MemoryManager 主要 有 以 下 几 个 功能 。 

口 记录 用 了 多 少 StorageMemory 和 Execution Memory。 

口 申请 Storage、Execution 和 Unroll Memory: acquireStorageMemory 、acquireExection 
Memory、acquireUnrollMemory。 

口 释放 Storage 和 Execution Memory。 
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抽象 类 MemoryManager 介绍 如 下 。 
口 MemoryManger 强制 管理 储存 (Storage) 和 执行 (Execution) 之 间 的 内 存 使 用 ， 从 
MemoryManager 申请 可 以 把 剩余 空间 借 给 对 方 。 所 有 Task 的 运行 就 是 ShuffleTask 
的 运行 ，ExecutionMemory 是 指 Shuffles、joins、sorts 和 aggregation 的 操作 ;而 
StorageMemory 是 缓存 和 广播 数据 相关 的 , 每 个 JVM 会 产生 一 个 MemoryManager 
来 负责 管理 内 存 。MemoryManager 构造 时 ， 需 要 指定 onHeapStorageMemeory 和 
onHeapExecutionMemory 的 参数 。 
MemoryManager.scala 的 源码 如 下 。 
1. /** 
* 一 种 抽象 内 存 管理 器 ,用 于 在 执行 内 存 和 存储 内 存 之 间 共 享 内 存 。 在 这 种 情况 下 ,执行 内 存 是 
* 指 用 于 计算 在 shuffles、Joins、 排 序 和 聚合 ， 而 存储 内 存 是 指 用 于 缓存 集群 内 部 数据 的 
*# 存 内 。 每 个 JVM 都 有 一 个 MemoryManager 
*/ 
private[spark] abstract class MemoryManager( 
conf: SparkConf, 
numCores: Int, 


onHeapStorageMemory: Long, 
onHeapExecutionMemory: Long) extends Logging { 




















OMAWND 


构造 MemoryManager 对 象 时 创建 StorageMemoryPool 和 ExecutionMemoryPool 对 象 ， 
用 来 管理 Storage 和 Execution 的 内 存 分 配 。 MemoryManagerscala 中 定义 了 
OnHeapStorageMemoryPool 、 OffHeapStorageMemoryPool 、OnHeapExecutionMemoryPool 、 
OffHeapExecutionMemoryPool 变量 。 

StorageMemory 用 来 记录 Storage 使 用 了 多 少 内 存 。 以 下 是 StorageMemoryPool.scala 中 
的 memoryUsed 方法 。 

StorageMemoryPool.scala 的 源码 如 下 。 


Eh Q@GuardedBy ("lock") 

2. private[this] var memoryUsed: Long = 0L 

3. override def memoryUsed: Long = lock.synchronized { 
4. memoryUsed 


ExecutionMemory 用 来 记录 Execution 使 用 了 多 少 内 存 ， 它 创建 一 些 HashMap 来 存储 
每 个 Task 的 内 存 使 用 量 ， 把 Map 中 的 所 有 Value 加 起 来 变 成 当前 ExecutionMemeory 的 
总 使 用 量 。 以 下 是 _ ExecutionMemoryPoolscala 中 的 memoryUsed 方法 。 

ExecutionMemoryPool.scala 的 源码 如 下 。 


工 。 /** 
* Map 数据 结构 :taskAttemptId -> 内 存 消耗 的 字 节 数 
2 */ 
3. @GuardedBy ("lock") 
A private val memoryForTask = new mutable.HashMap[Long, Long] () 
EE 
6 override def memoryUsed: Long = lock.synchronized { 
hs memoryForTask.values.sum 
8. } 
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MemoryStore 是 被 BlockManager 管理 的 ， 以 下 是 其 中 一 个 MemoryStore.scala 中 的 
putBytes 方法 。 

MemoryStore.scala 的 putBytes 方法 的 源码 如 下 。 
/** 


FFooc~aw 必 ww 


FF 口 ， 


* 使 用 size 测试 在 MemoryStore 内 存 中 是 否 有 足够 的 空间 。 如 果 有 ， 创 建 ByteBuffer 
* 放 入 MemoryStore 中 。 和 否则 ，ByteBuffer 缓冲 区 不 会 被 创建 。 调 用 者 应 保证 size 是 正 
* 确 的 

* Q@return true 如 果 put 方法 是 成 功 的 ， 则 返回 true， 和 否则 返回 false 

3 


def putBytes[T: ClassTag] ( 


} 


blockId: BlockId, 
size: Long, 
memoryMode: MemoryMode, 
_bytes: () => ChunkedByteBuffer): Boolean = { 
require(!contains (blockId), s"Block $blockId is already present in the 
MemoryStore") 
if (memoryManager .acquireStorageMemory (blockId, size, memoryMode)) { 
// 为 这 个 块 获得 了 足够 的 内 存 ， 所 以 把 它 放 进去 
Val bytes = bytes () 
assert (bytes.size == size) 
Val entry = new SerializedMemoryEntry[T] (bytes, memoryMode, 
implicitly[ClassTag[T]]) 
entries.synchronized { 
entries.put (blockId, entry) 
} 
logInfo("Block %s stored as bytes in memory (estimated size %s, free 
$s)".format( 
blockId, Utils.bytesToString(size), Utils.bytesToString (maxMemory 
- blocksMemoryUsed) ) ) 
true 
else { 
false 


上 


Spark 2.2 默认 的 MemoryManager 是 UnifiedMemoryManager， 以 下 源码 里 有 一 段 条 件 
判断 的 逻辑 ， 如 果 sparkmemory.userLegacyMode 是 true ， MemeoryManager 便 是 
StaticMemoryManager， 耕 则 就 是 Spark Unified Memory。 

SparkEnv.scala 的 memoryManager 的 源码 如 下 。 


“ 民 


~aw 心 wN 


val useLegacyMemoryManager = conf.getBoolean ("spark.memory.useLegacy 
Mode", false) 
val memoryManager: MemoryManager = 
if (useLegacyMemoryManager) { 
new StaticMemoryManager (conf, numUsableCores) 
} else { 
UnifiedMemoryManager (conf, numUsableCores) 


} 


在 MemoryManager 中 有 一 个 很 关键 的 代码 ， 如 果 想 使 用 OffHeap 作为 储存 的 话 ， 必 须 
设置 spark.memory.offHeap.enabled 为 true, 还 要 确定 offHeap 系统 的 空间 必须 大 于 0。 以 下 是 
MemoryManager.scala 中 的 tungstenMemoryMode 变量 源码 。 


放生 
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是 一 


j : 














MemoryManager.scala 的 tungstenMemoryMode 的 源码 如 下 。 


1. // 与 钨 丝 计划 管理 内 存 相关 的 内 容 
Zs /** 
* 跟踪 是 否 将 钨 丝 计 划 内 存 分 配 到 JVM 堆 或 Off-Heap 堆 外 使 用 (sun.misc.Unsafe) 

3 */ 

4 final val tungstenMemoryMode: MemoryMode = { 

5 if (conf.getBoolean("spark.memory.offHeap.enabled", false)) { 

3 require (conf .getSizeAsBytes ("spark.memory.offHeap.size", 0) > 0, 

7 "spark.memory .offHeap.size must be > 0 when spark.memory.offHeap. 
enabled == true") 

8. require (Platform.unaligned(), 

I "No support for unaligned Unsafe. Set spark.memory.offHeap.enabled 
to false.") 

10. MemoryMode .OFF HEAP 

a } else { 

2 MemoryMode .ON HEAP 

13. } 

14s 3} 


内 存 管理 (MemoryManager) 属于 Spark 框架 内 部 ， 包 含 两 种 类 型 。 

口 统一 内 存 管 理 (UnifiedMemoryManager) ， 属 于 框架 内 部 private[memory]。 
口 静态 内 存 管 理 〈StaticMemoryManager) 。 

其 中 UnifiedMemoryManager 的 源码 如 下 。 


private[spark] class UnifiedMemoryManager private[memory] ( 
conf: SparkConf, 
val maxHeapMemory: Long, 
onHeapStorageRegionSize: Long, 
numCores: Int) 
extends MemoryManager ( 
CCD 
numCores, 
onHeapStorageRegionSize， 
05 maxHeapMemory - onHeapStorageRegionSize) { 


Foco~awm 必 wm 


StaticMemoryManager 的 源码 如 下 。 


private[spark] class StaticMemoryManager( 
conf: SparkConf, 
maxOnHeapExecutionMemory: Long, 
override val maxOnHeapStorageMemory: Long, 
numCores: Int) 

extends MemoryManager( 
Con 

上 numCores, 

maxOnHeapStorageMemory, 

De maxOnHeapExecutionMemory) { 


Fo~awm 必 wm 


UnifiedMemoryManager 和 StaticMemoryManager 继承 自 MemoryManager。MemoryManager 
个 抽象 类 ， 预 留 未 来 的 变化 。MemoryManager 强制 管理 Execution 和 Storage 的 内 存 的 使 
Storage 是 存储 层面 ， 负 责 Persist、Unroll 及 Broadcast 的 数据 ; Execution 是 Shuffle 的 


数据 。 所 有 Task 的 运行 就 是 Shuffle Task 的 运行 ! 


在 上 下 文中 ，Execution 内 存 使 用 于 Shuffles、joins、sorts、aggregations; 而 Storage 内 





存 适用 于 caching、propagating internal data。 每 个 JVM 都 有 一 个 MemoryManager。 
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MemoryManager 传 入 的 参数 包括 : 
口 onHeapStorageMemory。 


口 onHeapExecutionMemory。 
MemoryManager.scala 的 源码 如 下 。 


站 
2 
全 
4. 
i 


private[spark] abstract class MemoryManager( 


conf: SparkConf, 

numCores: Int, 

onHeapStorageMemory: Long, 
onHeapExecutionMemory: Long) extends Logging { 


MemoryManager 定义 了 一 些 数据 结构 : 


ls 


Q@GuardedBy ("this") 

protected val onHeapStorageMemoryPool = new StorageMemoryPool (this, 
MemoryMode .ON_ HEAP) 

Q@GuardedBy ("this") 

protected val offHeapStorageMemoryPool = new StorageMemoryPool (this, 
MemoryMode .OFF HEAP) 

Q@GuardedBy ("this") 

protected val onHeapExecutionMemoryPool = new ExecutionMemoryPool (this, 
MemoryMode .ON_HEAP) 

Q@GuardedBy ("this") 


protected val offHeapExecutionMemoryPool = new ExecutionMemoryPool (this, 
MemoryMode .OFF HEAP) 


我 们 看 一 个 结构 StorageMemoryPool， 其 使 用 模式 匹配 ， 定 义 了 两 种 内 存 的 方式 。 
口 case MemoryMode.ON_HEAP => "on-heap storage" 堆 内 内 存 。 

口 case MemoryMode.OFF_HEAP => "off-heap storage" 堆 外 内 存 。 
StorageMemoryPool.scala 的 源码 如 下 。 


可 


co~awm 必 wmwN 


Private [memory] class StorageMemoryPool ( 


lock: Object， 
memoryMode: MemoryMode 
) extends MemoryPool (lock) with Logging { 


private[this] val poolName: String = memoryMode match { 
case MemoryMode.ON HEAP => "on-heap storage" 
case MemoryMode.OFF HEAP => "off-heap storage" 

} 


StorageMemoryPool 管理 Storage 的 空间 ，memoryUsed 是 已 经 使 用 的 内 存 空 间 ， 其 中 
MemoryStore 非常 重要 。 
StorageMemoryPool.scala 的 源码 如 下 。 


和 
之 妆 
区 
4. 
全 
6 
Ns 
8 
上 全 
10. 
dls 


override def memoryUsed: Long = lock.synchronized { 


memoryUsed 


} 


private var memoryStore: MemoryStore = 
def memoryStore: MemoryStore = { 
if ( memoryStore == null) { 
throw new IllegalStateException ("memory store not initialized yet") 
} 
memoryStore 


} 
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MemoryStore: 内 存 数 据 被 MemoryManger 管理 ， 其 实 最 终 还 是 被 BlockManger 管理 ， 
MemoryStore 在 构造 的 时 候 ， 根 据 上 下 文 创建 了 block、hashmap 等 数据 结构 。 
MemoryStore.scala 的 源码 如 下 。 


1. /** 


* 内 存 中 的 存储 块 ， 无 论 是 作为 反 序 列 化 的 Java 对 象 的 数组 ， 还 是 作为 序列 化 的 字 节 缓冲 区 
人 < 要 
3. private[spark] class MemoryStore( 
A conf: SparkConf, 
5s blockInfoManager: BlockInfoManager, 
入 serializerManager: SerializerManager, 
了 二 memoryManager: MemoryManager, 
Bs blockEvictionHandler: BlockEvictionHandler) 
和 extends Logging { 











可 到 StorageMemoryPool，acquireMemory 是 申请 内 存 。 
StorageMemoryPool.scala 的 源码 如 下 。 
/** 





2 * 获 得 个 字 节 的 内 存 去 缓存 给 定 块 ， 如 果 有 必要 ， 将 驱逐 现在 的 内 存 

二 于 

4. * @return 是 否 所 有 N 个 字 节 都 成 功 地 被 分 配 

5 二 

6s def acquireMemory (blockId: BlockId, numBytes: Long): Boolean = lock. 
synchronized { 

用 val numBytesToFree = math.max(0, numBytes - memoryFree) 

洒 acquireMemory (blockId, numBytes, numBytesToFree) 

9. h 


判断 一 下 内 存 是 否 足 够 ， 内 存 足 够 的 话 就 分 配 内 存 : _memoryUsed += numBytesTo 
Acquire。 
StorageMemoryPool.scala 的 源码 如 下 。 


def acquireMemory( 
blockId: BlockId, 
numBytesToAcquire: Long, 
numBytesToFree: Long): Boolean = lock.synchronized { 
assert (numBytesToAcquire >= 0) 
assert (numBytesToFree >= 0) 
assert (memoryUsed <= poolSize) 
if (numBytesToFree > 0) { 
memoryStore.evictBlocksToFreeSpace (Some (blockId), numBytesToFree, 
memoryMode) 
El } 
oT // 注 意 : 如 果 内 存 存储 时 驱逐 块 ， 驱 逐 将 同步 回调 到 StorageMemoryPool， 为 了 其 释放 
// 内 存 ， 这 些 变 量 已 经 更 新 


co~awm 必 mw 


32 val enoughMemory = numBytesToAcquire <= memoryFree 
3 if (enoughMemory) { 

14. _memoryUsed += numBytesToAcquire 

Ds } 

16 . enoughMemory 











可 到 MemoryManager: tungsten 内 存 分 配 的 方式 有 两 种 。 
口 case MemoryMode.ON_HEAP => MemoryAllocatorHEAP。 
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口 case MemoryMode.OFF HEAP => MemoryAllocatorUNSAFE。 
MemoryManager.scala 的 源码 如 下 。 


I /** 
*# 为 不 安全 /钢丝 计划 代码 分 配 内存 
2 */ 
33 private[memory] final val tungstenMemoryAllocator: MemoryAllocator = { 
4. tungstenMemoryMode match { 
5 case MemoryMode.ON HEAP => MemoryAllocator.HEAP 
case MemoryMode.OFF HEAP => MemoryAllocator .UNSAFE 
7. 上 
8. } 
-PD 


进入 MemoryAllocator: 构建 一 个 HeapMemoryAllocator 。MemoryAllocator HEAP = new 
HeapMemoryAllocator()。 
MemoryAllocator.scala 的 源码 如 下 。 


:I 
* 分 配 一 个 连续 的 内 存 块 。 注 意 ， 分 配 的 内 存 没 有 保证 被 清 零 (如 果 有 必要 ， 调 用 fi11 (0) 
* 方法 填充 ) 

2 示人 

< MemoryBlock allocate (long size) throws OutOfMemoryError; 

4. 

SE void free (MemoryBlock memory); 

6 

J MemoryAllocator UNSAFE = new UnsafeMemoryAllocator (); 

8 

a MemoryAllocator HEAP = new HeapMemoryAllocator(); 

Oe 


进入 HeapMemoryAllocator: 查看 里 面 的 allocate 方法 ， 先 查询 缓冲 池 是 否 为 空 ， 如 果 不 
为 室 ， 则 获取 MemoryBlock， 然 后 使 用 memory.fill 进行 分 配 。 
HeapMemoryAllocator.scala 的 源码 如 下 。 


本 public MemoryBlock allocate (long size) throws OutOfMemoryError { 
if (shouldPool (size)) { 
< 凡 synchronized (this) { 
四 final LinkedList<WeakReference<MemoryBlock>> pool =bufferPoolsBySize. 
get (size); 
5 if (Pool != null) { 
6. while (!pool.isEmpty()) { 
ks final WeakReference<MemoryBlock> blockReference = pool.pop(); 
8 final MemoryBlock memory = blockReference.get(); 
9 if (memory != null) { 
0 assert (memory.size() == size); 
六 return memory; 
2 
3 } 
4 bufferPoolsBySize.remove (size); 
Ds } 
LG6e } 
有 } 
LB8T long[] array = new long[(int) ((size + 7) / 8)]; 
9. MemoryBlock memory = new MemoryBlock(array, Platform.LONG ARRAY 


OFFSET, size); 


“0 
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2 if (MemoryAllocator.MEMORY DEBUG FILL ENABLED) { 

之 I memory.-.fill (MemoryAllocator.MEMORY DEBUG FILL CLEAN VALUE); 
2% } 

23。 return memory; 

24. } 


其 中 的 memory.fil 方 法 内 存 分 配 借助 JVM 的 Platform 来 分 配 内 存 。 
MemoryBlock.scala 的 源码 如 下 。 


1 /es 
* 用 指定 字 节 值 填充 内 存 块 
2 0 
3 public void fill (byte value) { 
4. Platform.setMemory (obj, offset, length, value); 
上 二 } 
~ 


Platform 类 使 用 JVM 提供 的 接口 方法 。 底 层 JVM 的 操作 是 很 原始 的 操作 。 
Platform.java 的 源码 如 下 。 


和 package org.apache.spark.unsafe; 

2 

3. import java.lang.reflect.Constructor; 
4 import java.lang.reflect.Field; 

5. import java.lang.reflect.Method; 

6. import java.nio.ByteBuffer; 
7 
8 


. import sun.misc.Cleaner; 
9. import sun.misc.Unsafe; 


10. 

11. public final class Platform { 

i 

13. public static void setMemory (Object object, long offset, long size, byte 
value) { 

44 UNSAFE . setMemory (object, offset, size, value); 

Ss } 


现在 看 儿 个 关键 点 : Unified Memory 是 Spark 1.6X 之 后 引入 的 ， 那 么 怎么 看 Spark 是 
哪 种 内 存 管理 器 呢 ? 每 台 机 器 上 都 有 MemoryManger， 那 么 Driver 上 也 有 MemoryManger， 
是 一 个 master-slave 的 结构 。 下 面 看 一 下 SparkEnv: val memoryManager: MemoryManager。 
SparkEnv.scala 的 源码 如 下 。 


1. class SparkEnv ( 

这 val executorId: String, 

3 private[spark] val rpcEnv: RpcEnyv, 

4. val serializer: Serializer, 

5 val closureSerializer: Serializer, 

6 val serializerManager: SerializerManager, 
7 val mapOutputTracker: MapOutputTracker, 
8. val shuffleManager: ShuffleManager, 

9 val broadcastManager: BroadcastManager, 


LO val blockManager: BlockManager, 

F val securityManager: SecurityManager, 

2s Val metricsSystem: MetricsSystem, 

3 val memoryManager: MemoryManager, 

14. val outputCommitCoordinator: OutputCommitCoordinator, 
To val conf: SparkConf) extends Logging { 


第 31 章 Spark 大 数据 性 能 调 优 实战 专业 之 路 








在 SparkEnv.Scala 中 ，MemoryManager: conf getBoolean("spark .memory.useLegacy Mode", 
false) 设 置 为 false 表示 遗弃 了 ， 是 static 级 别 的 。 那 么 ， 在 Spark 2.2.X 中 ， 如 果 要 使 用 旧版 
本 的 内 存 管 理 ， 在 配置 文件 中 设置 为 true 就 可 以 了 。 

口 conf getBoolean("sparkmemory.useLegacyMode")， 设 置 为 false， 使 用 StaticMemory 

Manager。 
口 conf.getBoolean("spark.memory.useLegacyMode")， 设 置 为 tue， 使 用 UnifiedMemory 
Manager。 

SparkEnv.scala 的 源码 如 下 。 

1. val useLegacyMemoryManager = conf.getBoolean ("spark.memory.useLegacyMode"， 
false) 

Val memoryManager: MemoryManager = 
if (useLegacyMemoryManager) { 
new StaticMemoryManager (conf, numUsableCores) 
} else { 
UnifiedMemoryManager (conf, numUsableCores) 


} 


wwN 


Spark 2.2.0 中 ， 我 们 使 用 的 是 UnifiedMemoryManager， 进 入 类 UnifiedMemoryManager， 
里 面 的 预 留 空间 是 300MB RESERVED _ SYSTEM _ MEMORY BYTES =300X1024X1024。 

reservedMemory 要 做 事情 ， 也 可 以 将 它 调 大 。 

UnifiedMemoryManager.scala 的 源码 如 下 。 


1. object UnifiedMemoryManager { 


3. // 为 非 存储 内 存 、 非 执行 内 存 的 用 途 预 留 内 存量 , 提供 类 似 于 spark.memory .fraction 的 
// 功 能 , 但 保证 我 们 预 留 充足 的 系统 内 存 , 即使 是 很 小 的 堆 内 存 。 例如 , 如 果 有 一 个 1GB 的 JVM， 
// 用 于 执行 内 存 和 存储 内 存 ， 默 认为 (1024300)x0.6= 434MB 


4 private val RESERVED SYSTEM MEMORY BYTES = 300 * 1024 * 1024 

本 

6 def apply(conf: SparkConf, numCores: Int): UnifiedMemoryManager = { 

1 val maxMemory = getMaxMemory (conf) 

8 new UnifiedMemoryManager( 

上 克 conf, 

10. maxHeapMemory = maxMemory, 

ds onHeapStorageRegionSize = 

2 (maxMemory * conf .getDouble ("spark.memory.storageFraction", 0.5)). 
toLong, 

2 numCores = numCores) 

I 


Spark 2.2.0 新 型 的 JVM Heap 分 为 三 大 部 分 : Reserved Memory、User Memory、Spark 
Memory。 图 31-10 中 的 Reserved Memory( 预 留 内 存 ) 是 300MB, Spark Memory 包括 Storage 
Memory 和 Execution Memory， 里 面 所 有 的 参数 都 可 以 调整 。 

下 面 看 一 下 maxMemory。maxMemory 是 Storage Memory 和 Execution Memory 需要 的 部 
分 。 val maxMemory = getMaxMemory(conf); val memoryFraction = conf.getDouble 
("spark.memory.fraction", 0.6)，Spark 2.1.X 的 源码 默认 配置 为 60%。 

UnifiedMemoryManager 的 getMaxMemory 的 源码 如 下 。 


1. /** 
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2 
3 
24. 
4 本 
2 


* 返 回执 行内 存 和 存储 内 存 之 间 共享 的 内 存 总 量 ， 以 字 节 为 单位 
小 


private def getMaxMemory (conf: SparkConf) : Long = { 
val systemMemory = conf.getLong("spark.testing.memory", Runtime. 
getRuntime .maxMemory) 
val reservedMemory = conf.getLong ("spark.testing.reservedMemory", 
if (conf.contains ("spark.testing")) 0 else RESERVED SYSTEM MEMORY 
BYTES) 
val minSystemMemory = (reservedMemory * 1.5) .ceil.toLong 
if (systemMemory < minSystemMemory) { 
throw new IllegalArgumentException(s"System memory $systemMemory 
must + 
s"be at least $minSystemMemory. Please increase heap size using the 
—-driver-memory " + 
s"option or spark.driver.memory in Spark configuration.") 
} 
//SPARK-12759 如 果 内 存 不 足 ， 就 检查 Executor 内 存 是 否 失败 
if (conf.contains ("spark.executor .memory")) { 
val executorMemory = conf.getSizeRAsBytes ("spark.executor .memory") 
if (executorMemory < minSystemMemory) { 
throw new IllegalArgumentException(s"Executor memory S$executor 
Memory must be at least "+ 
s"$minSystemMemory. Please increase executor memory using the " + 
5s"--executor-memory option or spark.executor.memory in Spark 
configuration.") 
} 
val usableMemory = systemMemory - reservedMemory 
val memoryFraction = conf.getDouble("spark.memory.fraction", 0.6) 
(usableMemory * memoryFraction) .toLong 


} 


回 到 Memory Manager， 这 里 有 很 多 成 员 。 看 一 个 比较 关键 的 tungstenMemoryMode， 定 
义 Tungsten Memory 使 用 在 JVM 的 Heap 上 面 ， 还 是 使 用 sun.misc.Unsafe OFF-HEAP。 

口 "spark.memory.offHeap.enabled"， 默 认 是 false， 使 用 MemoryMode.ON_HEAP。 

口 "spark.memory.offHeap.enabled"， 设 置 为 tue， 使 用 MemoryMode.OFF HEAP。 

现在 是 Spark 2.2.0 版 本 , 因此 我 们 倾向 于 谈 tungsten 的 内 容 。 这 里 定义 了 pageSizeBytes。 

MemoryManager.scala 的 源码 如 下 。 


/ 


* 默认 页 面 大 小 ， 以 字 节 为 单位 。 如 果 用 户 没 有 显 式 地 设置 spark.buffer.pageSize, 我 
* 们 计算 出 默认 值 ， 通 过 进程 查看 可 用 的 内 核 数 量 和 内 存 总 量 ， 然 后 除 以 一 个 安全 系数 
#/ 


val pageSizeBytes: Long = { 

val minPageSize = 1L * 1024 * 1024 //1MB 

val maxPageSize = 64L * minPageSize //64MB 

val cores = if (numCores > 0) numCores else Runtime.getRuntime. 

availableProcessors() 

// 取 得 下 一 个 2 的 突 ， 可 能 在 最 坏 情况 下 的 安全 系数 为 8 

val safetyFactor = 16 

val maxTungstenMemory: Long = tungstenMemoryMode match { 
case MemoryMode.ON HEAP => onHeapExecutionMemoryPool .poolSize 
case MemoryMode.OFF HEAP => offHeapExecutionMemoryPool.poolSize 
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3 } 

14. val size = ByteArrayMethods .nextPowerOf2 (maxTungstenMemory / cores / 
safetyFactor) 

了 与 = val default = math.min (maxPageSize, math.max (minPageSize, size)) 

16. conf .getSizeAsBytes ("spark.buffer.pageSize", default) 

A 


Spark 1.6X 版 本 之 前 的 旧版 本 使 用 的 内 存 管 理 方式 是 静态 内 存 StaticMemoryManager 方 
StaticMemoryManager.scala 的 源码 如 下 。 





1. private val maxUnrollMemory: Long = { 

要 入 (maxOnHeapStorageMemory * conf.getDouble ("spark.storage.unrollFraction"， 
0.2)) .toLong 

} 


Unroll 是 反 序列 化 的 过 程 。 数 据 在 内 存 中 是 序列 化 的 ， 要 使 用 数据 ， 必 须 反 序列 化 。 需 


要 反 序 列 化 的 时 候 ，Unroll 占 20% 的 空间 ， 占 用 Cache 的 空间 。 计 算 公式 : Heap Size X 
Spark.Storage.safetyFraction X Spark.Storage.memoryFraction X Spark.Storage.unrollFraction， 即 
Heap Size X90%X60%X20%， 默 认 情 况 是 HeapSize X 10.08%。 


这 里 定义 了 默认 的 Storage Memory 的 一 些 配 置信 息 。Spark.Testing.memory 是 系统 运行 


时 的 最 大 内 存 大 小 。 其 中 spark.storage.safetyFraction 默认 设置 为 0.9; spark.storage.memory 


Fraction 默认 设置 为 0.6。 
StaticMemoryManager.scala 的 源码 如 下 。 
Po 
* 返 回 存 储 区 域 可 用 的 内 存 总 量 ， 以 字 节 为 单位 
2 
| ee def getMaxStorageMemory (conf: SparkConf): Long = { 
4. val systemMaxMemory = conf.getLong("spark.testing.memory", Runtime. 


getRuntime .maxMemory) 
> val memoryFraction = conf.getDouble ("spark.storage.memoryFraction", 0.6) 
GE val safetyFraction = conf.getDouble ("spark.storage.safetyFraction"，0.9) 
7 (systemMaxMemory * memoryFraction * safetyFraction) .toLong 
8 


} 
下 面 看 一 下 Execution 级 别 的 内 存 管理 ， 即 Shuffle 的 内 存 。Shuffle 在 一 个 Executor 的 


Heap 占用 大 小 计算 公式 为 


Heap Size X Spark.Storage.safetyFraction X Spark.Shuffle memoryFraction X Spark.Shuffle.safety 


Fraction=Heap size X90%X20X 80%=14.4%, 这 里 涉及 的 参数 为 spark.shuffle memoryFraction， 
默认 设置 为 0.2; spark.shuffle.safetyFraction 默认 设置 为 0.8。 


StaticMemoryManager.scala 的 源码 如 下 。 


es /** 
* 返 回执 行内 存 可 用 的 内 存 总 量 ， 以 字 节 为 单位 

这 */ 

人 

4. private def getMaxExecutionMemory (conf: SparkConf): Long = { 

ys val systemMaxMemory = conf.getLong("spark.testing.memory", Runtime. 
getRuntime .maxMemory) 

B= 

oe if (systemMaxMemory < MIN MEMORY BYTES) { 

8 throw new IllegalArgumentException(s"Systemmemory $systemMaxMemory 


must ”+ 
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s"be at least $MIN MEMORY BYTES. Please increase heap size using 
the --driver-memory " + 
s"option or spark.driver.memory in Spark configuration.") 
} 
if (conf.contains("spark.executor.memory")) { 
Val executorMemory = conf.getSizeAsBytes ("spark.executor.memory") 
if (executorMemory < MIN MEMORY BYTES) { 
throw new IllegalArgumentException (s"Executor memory $executorMemory 
must be at least "+ 
S"SMIN MEMORY BYTES. Please increase executor memory using the "+ 
5s"--executor-memory option or spark.executor.memory in Spark 
configuration.") 
J 
Val memoryFraction = conf.getDouble ("spark.shuffle.memoryFraction"，0.2) 
val safetyFraction = conf.getDouble ("spark.shuffle.safetyFraction", 0.8) 
(systemMaxMemory * memoryFraction * safetyFraction) .toLong 


} 


最 后 看 一 下 ExecutionMemoryPool、StorageMemoryPool。 

首先 看 一 下 ExecutionMemoryPool， 里 面 有 一 个 变量 memoryForTask。memoryForTask 
是 HashMap 类 型 。memoryForTask 记录 Task 对 内 存 的 使 用 情况 ，Task 运行 的 时 候 怎么 使 用 。 

ExecutionMemoryPool.scala 的 源码 如 下 。 


bE 


这 
:全 
4. 


/水 


Map 数据 结构 : taskRttemptId -> 内 存 消耗 的 字 节 数 
/ 


水 
六 


@GuardedBy ("lock") 
private val memoryForTask = new mutable.HashMap[Long, Long] () 


ExecutionMemoryPool 有 一 个 重要 方法 acquireMemory， 申 请 内 存 可 能 申请 不 到 ， 也 可 能 
机 器 比较 忙 ， 申 请 时 会 重 试 若干 次 。 如 果 无 法 满足 ， 就 会 循环 一 些 次 数 。 
ExecutionMemoryPool.scala 的 源码 如 下 。 


private[memory] def acquireMemory( 
numBytes: Long, 
taskAttemptId: Long, 
maybeGrowPool: Long => Unit = (additionalSpaceNeeded: Long) => Unit, 
computeMaxPoolSize: () => Long = () => poolSize): Long = 
lock.synchronized { 
assert (numBytes > 0, s"invalid number of bytes requested: $numBytes") 


// 待 办 事项 TODO: 清理 这 个 笨拙 的 方法 签名 


// 将 任务 添加 到 taskMemory,， 这 样 我 们 就 可 以 保持 活动 任务 的 准确 计数 , 调用 acquireMemory 
// 让 其 他 任务 降低 内 存 


if (!memoryForTask.contains (taskAttemptId)) { 
memoryForTask (taskRAttemptId) = 0L 
// 这 将 导致 等 待 中 的 任务 被 唤醒 ， 再 次 检查 任务 数量 
lock-notifyRAll() 

上 


// 继 续 循环 ， 直 到 确认 不 批准 这 个 请 求 〈 因 为 这 个 任务 会 超过 1/numActiveTasks 的 内 
// 存 ) 或 者 我 们 有 足够 的 空闲 内 存 给 它 〈 让 每 个 任务 得 到 至 少 1 / (2 XnumActiveTasks)) 


// 待 办 事项 TODO: 简化 此 操作 ， 以 将 每 个 任务 限制 到 自己 的 槽 中 
while (true) { 
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20 . val numActiveTasks = memoryForTask.keys.size 

is val curMem = memoryForTask (taskAttemptId) 

之 2 

2 3 // 在 循环 的 每 次 迭代 中 , 应 该 首先 尝试 回收 任何 从 存储 空间 借 来 的 执行 空间 。 这 是 必要 的 ， 
// 因 为 在 可 能 的 情况 条 件 下 ， 新 的 存储 块 可 能 会 获取 该 任务 正在 等 待 的 空闲 执行 内 存 

A maybeGrowPool (numBytes - memoryFree) 

2 

6 // 在 池 增 长 以 后 可 能 达到 的 池 的 最 大 大 小 。 这 是 用 来 计算 每 个 任务 可 以 占用 多 少 内 存 的 上 


// 限 。 这 必须 考虑 到 潜在 的 空闲 内 存 以 及 当前 池 的 占用 数量 。 和 否则, 我 们 可 能 会 遇 到 SPARK- 
//12155 的 情况 ， 在 统一 存储 管理 中 ， 我 们 没有 考虑 到 的 空间 可 能 已 被 逐 出 了 缓存 块 


ZI val maxPoolSize = computeMaxPoolSize() 

28s val maxMemoryPerTask = maxPoolSize / numActiveTasks 

人 val minMemoryPerTask = poolSize / (2 * numActiveTasks) 

30. 

31. // 如 何 分 配 这 个 任务 ; 保持 其 份额 在 0 <= X <= 1 / numActiveTasks 

2 val maxToGrant = math.min (numBytes, math.max(0, maxMemoryPerTask — 
CurMem) ) 

3 // 给 它 尽 可 能 多 的 空 亲 内存， 如 果 没 有 达到 1 / numTasks 

34. val toGrant = math.min (maxToGrant, memoryFree) 

< 于 局 

36. // 要 让 每 个 任务 在 阻塞 前 至 少 得 到 1 / (2X numActiveTasks); 如 果 我 们 现在 不 能 
给 它 这 么 多 ， 就 等 待 其 他 任务 释放 内 存 〈 如 果 旧 任务 在 增长 之 前 分 配 了 大 量 内 存 ) 

民 人 二 if (toGrant < numBytes && curMem + toGrant < minMemoryPerTask) { 

38. logInfo(s"TID $taskAttemptId waiting for at least 1/2N of $poolName 
pool to be free") 

39. lock.wait() 

40 . } else { 

a1l. memoryForTask (taskRAttemptId) += toGrant 

2 return toGrant 

43. } 

44. } 

45. 0L //Never reached 

46. 3} 


下 面 看 一 下 StorageMemoryPool 申请 内 存 。acquireMemory 申请 时 判断 有 没有 内 存 , 首先 
计算 Storage 空 闪 的 内 存量 和 申请 的 内 存量 ， 以 及 需要 释放 多 少 内 存 。 如 果 申 请 的 内 存 大 于 
内 存 池 的 剩余 内 存 ，Storage 内 存 池 就 尝试 释放 一 部 分 内 存 ， 如 果 释 放 后 能 满足 ， 就 将 申请 的 
内 存 分 配给 运行 的 Task， 让 Task 去 使 用 。 

问题 MemoryManger 在 哪里 被 调用 ? 每 个 Executor 启动 的 时 候 肯 定 有 一 个 
MemoryManger。 很 清楚 ， 肯 定 是 在 BlockManger 中 。 

BlockManager.scala 的 源码 如 下 。 

i private[spark] class BlockManager( 

这 executorId: String, 

3 rpcEnv: RpcEnv, 

A val master: BlockManagerMaster, 

5 val serializerManager: SerializerManager, 
6 
7 


val conf: SparkConf, 
memoryManager: MemoryManager, 


8. mapOutputTracker: MapOutputTracker, 

as shuffleManager: ShuffleManager, 

10. val blockTransferService: BlockTransferService, 
Fy securityManager: SecurityManager, 

;ha numUsableCores: Int) 


13. extends BlockDataManager with BlockEvictionHandler with Logging { 
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BlockManager 里 面 有 MemoryManager，MemoryManager 成 员 是 被 传 入 进来 的 。 那 我 们 
就 看 BlockManager 是 什么 时 候 被 实例 化 的 。 在 BlockManager 上 按 Ctrl 键 ， 选 择 
ShuffleExternalSorter， 查 看 ShuffleExtermalSorter 的 源码 。 

ShuffleExtemalSorter.java 的 源码 如 下 。 

ShuffleExternalSorter( 

2 TaskMemoryManager memoryManager, 

区 | BlockManager blockManager, 

4. TaskContext taskContext, 

i int initialSize, 

Gs int numPartitions, 

区 < 
8 . 


SparkConf conf, 
ShuffleWriteMetrics writeMetrics) { 


继续 跟踪 至 UnsafeShuffleWriterjava 的 ShuffleExternalSorter ， 这 个 时 候 传 的 是 
MemoryManager。 
ShuffleExtemalSorter.scala 的 源码 如 下 。 


而 private void open() throws IOException { 

2 assert (sorter == null); 

3 sorter = new ShuffleExternalSorter( 

4. memoryManager, 

Si blockManager, 

6 taskContext, 

yf initialSortBufferSize， 

8 partitioner.numPartitions(), 

9 sparkConf, 

DS writeMetrics); 

于 于 serBuffer = new MYByteArrayOutputStream(1024 * 1024) 
325 serOutputStream = serializer.serializeStream(serBuffer); 


ds } 


我 们 看 一 下 MemoryManager。 
UnsafeShuffleWriter.scala 的 源码 如 下 。 


1 public class UnsafeShuffleWriter<K, V> extends ShuffleWriter<K，V> { 
2 
区 private final TaskMemoryManager memoryManager; 


MemoryManager 是 什么 时 候 实 例 化 的 ? MemoryManager 是 在 UnsafeShuffleWriter 构造 化 
的 时 候 实 例 化 的 ， 那 继续 跟踪 下 去 。 
UnsafeShuffleWriter.scala 的 源码 如 下 。 


public UnsafeShuffleWriter( 
BlockManager blockManager, 
IndexShuffleBlockResolver shuffleBlockResolver, 
TaskMemoryManager memoryManager, 
SerializedShuffleHandle<K, V> handle, 
int mapId, 
TaskContext taskContext, 
SparkConf sparkConf) throws IOException { 


OANA 


这 时 就 到 SortShuffleManager.scala，SortShuffleManager 的 getWriter 方法 的 第 三 个 参数 
context: TaskContext， 这 里 是 指 Task 的 Context， 在 Task 反 序列 化 时 获得 的 ， 从 context. 
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taskMemoryManager() 就 可 以 从 上 下 文 Context 中 获得 taskmemoryManager。 
SortShuffleManager.scala 的 源码 如 下 。 


override def getWriter[K, V]( 


handle match { 
case unsafeShuffleHandle: SerializedShuffleHandle[K @unchecked, V 
@unchecked] => 
new UnsafeShuffleWriter( 

env.blockManager, 
shuffleBlockResolver.asInstanceOf[IndexShuffleBlockResolver], 
context .taskMemoryManager () ， 
unsafeShuffleHandle, 
mapId, 
context, 
env.conf) 


taskcontext 上 下 文 是 Task 启动 过 程 中 给 内 存 分 配 内 存 管 理 器 ! Task 被 序列 化 到 Executor 

中 ， 之 后 反 序 列 化 运行 ， 构 建 MemoryManager 的 一 个 实例 。 
Unified 机 制 下 Execution 向 Storage 借 空 间 源 码 解析 : 

Unified Memory Manager 有 两 个 核心 方法 : acquiredExecutionMemeory 和 acquireStorage 
Memory 。 当 ExecutionMemory 有 剩余 空间 时 ， 可 以 借 给 StorageMemory， 然 后 通过 调用 
StorageMemoryPool 的 acquireMemory 方法 向 storageMemoryPool 申请 空间 。 

Spark 2.1.1 版 本 的 UnifiedMemoryManager.scala 的 acquireStorageMemory 的 源码 如 下 。 


co~awm 必 wb 


override def acquireStorageMemory( 
blockId: BlockId, 
numBytes: Long, 
memoryMode: MemoryMode): Boolean = synchronized { 
assertInvariants () 
assert (numBytes >= 0) 
val (executionPool, storagePool, maxMemory) = memoryMode match { 
case MemoryMode.ON HEAP => ( 
onHeapExecutionMemoryPool, 
onHeapStorageMemoryPool, 
maxOnHeapStorageMemory) 
case MemoryMode.OFF HEAP => ( 
offHeapExecutionMemoryPool, 
offHeapStorageMemoryPool, 
maxOffHeapMemory) 
} 
if (numBytes > maxMemory) { 
/7 如 果 块 不 合适 ， 很 快 就 失败 
logInfo(s"Will not store $blockId as the required space ($numBytes 
bytes) exceeds our "+ 
s"memory limit ($maxMemory bytes)") 
return false 
} 
if (numBytes > storagePool.memoryFree) { 
// 存 储 池 中 没有 足够 的 空 亲 内存 ， 因 此 尝试 从 执行 内 存 中 借用 空闲 内 存 
Val memoryBorrowedFromExecution = Math .min (executionPool .memoryFree, 
numBytes) 
executionPool.decrementPoolSize (memoryBorrowedFromExecution) 
storagePool.incrementPoolSize (memoryBorrowedFromExecution) 


“1083.。 


下 篇 ”性 能 调 优 








人 4: 必 storagePool .acquireMemory (blockId, numBytes) 
30。 | 


Spark 2.2.0 版 本 的 UnifiedMemoryManager.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 
特点 : 上 段 代码 中 的 第 25 行 中 Mathmin 的 第 二 个 参数 调整 为 numBytes - storagePool. 


memoryFree。 


:A 

2. val memoryBorrowedFromExecution = Math.min(executionPool .memoryFree, 
入 numBytes - storagePool .memoryFree) 

ee 


acquiredExecutionMemory 主要 是 为 当前 的 执行 任务 获得 的 执行 空间 ， 它 首先 会 根据 
onHeap 和 offHeap 方式 进行 分 配 。 

在 MemoryManager 构造 的 时 候 ， 也 分 配 一 定 的 内 存 空间 poolSize。 

MemoryManager.scala 的 源码 如 下 。 

Ls offHeapExecutionMemoryPool.incrementPoolSize (maxOffHeapMemory — 


offHeapStorageMemory) 
2 offHeapStorageMemoryPool .incrementPoolSize (offHeapStorageMemory) 


MemoryPool.scala 的 incremenPoolSize 方法 的 源码 如 下 。 


1. /#** 
* 通过 delta 字 节 扩大 池 
*/ 
final def incrementPoolSize(delta: Long): Unit = lock.synchronized { 
require(delta >= 0) 
_poolSize += delta 


wm 必 ww 


2 


调用 computeMaxExecutionPoolSize 方法 向 ExecutionPool 申请 资源 。 过 程 中 会 调用 
maybeGrowExecutionPool 来 判断 需要 多 少 内 存 ， 包 括 计算 内 存 空间 的 空闲 资源 与 Storage 曾 
经 占用 的 空间 。 

UnifiedMemoryManager.scala 的 computeMaxExecutionPoolSize 方法 的 源码 如 下 。 


1. def computeMaxExecutionPoolSize(): Long = { 

这 maxMemory - math.min(storagePool.memoryUsed, storageRegionSize) 

3 } 

maybeGrowExecutionPool 方法 首先 判断 申请 的 内 存 申请 资源 大 于 0， 然 后 判断 剩余 空间 
和 Storage 曾经 占用 的 空间 多 ， 把 需要 的 内 存 资源 量 提交 给 StorageMemoryPool 的 
freeSpaceToShrinkPool 方法 。 

最 终 的 结果 是 调用 方法 executionPool.acquireMemory。UnifiedMemoryManager.scala 的 源 
码 如 下 。 





区 executionPool.acquireMemory( 

2 numBytes, taskAttemptId, maybeGrowExecutionPool, computeMaxExecution 
PoolSize) 

3. } 


然后 判断 当前 FreeSpace 能 否 满 足 Execution 的 需要 ， 如 果 无 法 满足 ， 则 调用 
MemoryStore 的 evictVlocksToFreeSpace 方法 在 StorageMemoryPool 中 挤 掉 一 部 分 数据 。 
StorageMemoryPool.scala 的 freeSpaceToShrinkPool 方法 的 源码 如 下 。 
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后 def freeSpaceToShrinkPool (spaceToFree: Long) : Long = lock.synchronized { 


2 val spaceFreedByReleasingUnusedMemory = math.min(spaceToFree, 
memoryFree) 

3 val remainingSpaceToFree = spaceToFree - spaceFreedByReleasingUnused 
Memory 

台 if (remainingSpaceToFree > 0) { 

5 // 如 果 回收 内 存 没有 充分 收缩 池 ， 则 开始 驱逐 块 

二 val spaceFreedByEviction = 

4 memoryStore.evictBlocksToFreeSpace (None, remainingSpaceToFree, 

memoryMode) 
SE // 当 一 个 块 被 释放 , BlockManager .dropFromMemory () 调用 releaseMemory 方法 ， 
这 里 我 们 不 需要 decrement memoryUsed 。 但 是 ， 我 们 确实 需要 减少 池 的 大 小 

9. spaceFreedByReleasingUnusedMemory + spaceFreedByEviction 

了 0- } else { 

I spaceFreedByReleasingUnusedMemory 

2 } 

1 


调用 ExecutionPool 的 acquireMemory 方法 向 ExecutionPool 申请 内 存 资源 ， 每 个 
Task 理论 上 讲 一 般 能 使 用 的 大 小 是 从 poolSize /(2 X numActiveTasks) 到 maxPoolSize/ 
numActiveTasks。 

了 解 Spark Shuffle 中 的 JVM 内 存 使 用 空间 对 一 个 Spark 应 用 程序 的 内 存 调 优 是 至 关 
重要 的 。 根 据 不 同 的 内 存 控制 原理 分 别 对 存储 和 执行 空间 进行 参数 调 优 : spark.executor. 
memory、 spark.storage.safetyFraction、spark.storage.memoryFraction、spark.storage.unrollFraction、 
spark.shuffle.memoryFraction、spark.shuffle.safteyFraction。 

Spark 1.6 以 前 的 版 本 使 用 的 是 固定 的 内 存 分 配 策略 ， 把 JVM Heap 中 的 90% 分 配 为 
安全 空间 ， 然 后 将 这 90% 的 安全 空间 中 的 60% 作为 存储 空间 ， 例 如 进行 Persist、Unroll 以 
及 Broadcast 的 数据 。 然 后 再 把 这 60% 的 20% 作 为 支持 一 些 序列 化 和 反 序 列 化 的 数据 工作 。 
其 次 ， 当 程序 运行 时 ，JVM Heap 会 把 其 中 的 80% 作为 运行 过 程 中 的 安全 空间 ， 这 80% 的 
其 中 20% 是 用 来 负责 Shuffle 数据 传输 的 空间 。 

Spark 2.0 中 推出 了 联合 内 存 的 概念 ， 最 主要 的 改变 是 存储 和 运行 的 空间 可 以 动态 移动 。 
需要 注意 的 是 ， 执 行 比 存储 有 更 大 的 优先 值 ， 当 空间 不 够 时 ， 可 以 向 对 方 借 空间 ， 但 前 提 是 
对 方 有 足够 的 空间 或 者 是 Execution 可 以 强制 把 Storage 一 部 分 空间 挤 掉 。Excution 向 
Storage 借 空 间 有 两 种 方式 : 第 一 种 方式 是 Storage 曾经 向 Execution 借 了 空间 ， 它 缓存 的 
数据 可 能 非常 多 ， 当 Execution 需要 空间 时 ， 可 以 强制 拿 回来 ; 第 二 种 方式 是 Storage Memory 
不 足 50% 的 情况 下 ，Storage Memory 会 很 乐意 地 把 剩余 空间 借 给 Execution 。 

如 果 是 你 的 计算 比较 复杂 的 情况 ， 使 用 新 型 的 内 存 管 理 〈Unified Memory Management) 
会 取得 更 高 的 效率 ， 但 是 如 果 计 算 的 业务 逻辑 需要 更 大 的 缓存 空间 ， 此 时 使 用 老 版 本 的 固定 
内 存 管理 (StaticMemoryManagement) 效果 会 更 好 。 











区 





31.12 ”Spark 2.2X 中 Shuffle 中 JVM Unified Memory 内 幕 详情 


Spark 2.2X 中 Shuffle 中 JVM Unified Memory 内 幕 详 情 : Spark Unified Memory 的 运行 
原理 和 机 制 是 什么 ? Spark JVM 最 小 配置 是 什么 ? 用 户 空间 什么 时 候 会 出 现 OOM? Spark 中 
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的 Broadcast 到 底 存储 在 什么 空间 ? ShuffleMapTask 使 用 的 数据 到 底 在 什么 地 方 ? 

口 Spark Unified Memory 的 运行 原理 和 机 制 是 什么 ? Spark Unified Memory， 这 是 统一 
或 者 联合 的 意思 ， 但 是 Spark 没有 用 Shared， 例 如 ，A 和 B 进行 Unified，A，B 进 
行 Shared 其 实 是 两 个 不 同 的 概念 。 

口 Spark JVM 最 小 配置 是 什么 ? 

口 用 户 空间 什么 时 候 会 出 现 OOM? Spark 2.2.X 中 用 户 空间 OOM， 首 先 要 确定 user 
space memory 是 什么 ， 举 一 个 很 简单 的 例子 ， 假 如 Executor 是 100GB 的 内 存 ， 那 
user space memory 是 什么 ， 这 个 问题 不 是 所 有 人 能 回答 出 来 的 ， 你 的 user space 
memory 是 50GB、80GB、20GB， 还 是 25GB? 为 什么 这 件 事 情 很 重要 ? 例如 ， 在 
Spark 中 使 用 算 子 mapPartition， 一 般 要 使 用 中 间 数 据 和 临时 对 象 ， 你 这 个 时 候 使 用 
的 中 间 数 据 和 临时 对 象 ， 就 是 user space 里 面 用 户 操作 的 数据 空间 ， 那 这 个 空间 的 数 
据 大 小 什么 时 候 导致 OOM? 

口 Spark 中 的 Broadcast 到 底 存 储 在 什么 空间 ? 

口 ShuffleMapTask 使 用 的 数据 到 底 在 什么 地 方 ? 是 存在 Cache 空间 中 吗 ? 

本 节 彻 底 解密 Spark 2.2.X 中 Shuffle 中 JVM Unified Memory 内 幕 详情 。 

(1) Spark 2.2.0 新 型 的 JVM Heap 分 为 三 大 部 分 。 

口 Reserved Memory。 

口 User Memory。 

口 Spark Memory。 

(2) 预 留 内存 Reserved Memory: 系统 运行 时 至 少 Heap 的 大 小 为 300MB X 1.5=450MB。 

- 般 本 地 开发 ， 例 如 在 Windows 系统 上 ， 建 议 Windows 系统 至 少 为 2GB。 

(3) User Memory: 从 Spark 的 程序 讲 ， 什 么 是 user memory? 什么 时 候 接触 到 memory 
的 空间 ? 基于 RDD 编程 , user memory 就 是 在 RDD 具体 实现 的 方法 中 (如 map、mapPatrtitions 
等 方法 ) ， 开 发 者 在 方法 中 写 自己 的 代码 ， 实 现 怎 么 处 理 RDD 的 数据 举 一 个 很 简单 的 例子 ， 
你 可 能 使 用 一 个 数据 结构 ，mapPartitions 处 理 一 个 Partition 的 时 候 有 5000 个 Record 记录 要 
处 理 ， 在 这 个 过 程 中 建立 了 一 些 临 时 数据 ， 这 些 数据 实际 意义 上 讲 和 Spark 本 身 不 太 相 关 ， 
作为 开发 者 User 引入 的 中 间 数 据 ， 这 些 数据 不 缓存 在 Spark 的 Storage Memory 中 ， 存 放 在 
User Memory 中 。 

5000 个 record 记录 产生 的 中 间 数 据 放 在 哪里 是 一 件 很 重要 的 事情 , 例如 ,产生 的 中 间 数 
据 是 10G 的 大 小 , 或 者 1M 的 大 小 ， 对 系统 的 运行 有 什么 影响 ? 单机 版 本 的 Java、Python 就 
是 这 种 级 别 的 内 存 ， 分 配 一 个 list、map， 或 者 ARRAY 写 一 个 循环 进行 处 理 ; 例如 ， 读 数据 
库 对 Key 进行 匹配 ， 或 者 累加 一 个 数据 ， 因 此 我 们 须 考虑 自己 维护 的 数据 是 否 会 导致 出 现 
OOM。 在 Spark 中 ， 人 们 对 算 子 里 面 RDD 数据 以 外 的 数据 及 数据 结构 却 不 那么 重视 ， 而 在 
单机 版 本 编程 的 时 候 ， 我 们 重视 的 主要 就 是 这 些 数 据 结构 及 数据 。 

在 mapPartitions 算 子 中 间 使 用 的 数据 ， 也 就 是 说 不 是 RDD 数据 的 数据 ， 是 存储 在 Spark 
Memory 中 吗 ? Spark Memory 是 Spark 框架 使 用 的 内 存 空 间 ， 相 当 于 编程 的 时 候 涉及 两 个 方 
面 : @ 框 架 方面 : 例如 tensorFlow 进行 特征 提取 ， 解 决 了 图 像 、 声 音 特征 的 识别 ，@ 另 一 方 
面 是 用 户 的 部 分 ， 例 如 用 户 只 要 开发 声音 、 图 像 、 深 度 学 习 内 容 。 

从 Spark 的 角度 讲 : 也 分 Spark 框架 的 部 分 和 用 户 空间 的 部 分 : 

口 Spark Memory 就 是 Spark 运行 时 可 以 主导 哪些 空间 ! 
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口 User Memory 就 是 你 可 以 主导 哪些 空间 : 你 在 什么 时 候 主导 空间 呢 ? 唯一 主导 的 时 候 
就 是 map、mapPartioion、groupBYKey、agsgregate 操作 的 时 候 中 间 会 产生 一 些 数据 结 
构 ， 这 些 数据 结构 就 在 userMemory 中 。 而 系统 的 空间 不 可 侵犯 的 ! Spark 在 新 版 本 
空间 划分 非常 明智 ， 将 用 户 空间 、Spark 空间 完全 分 离开 ! 也 是 从 安全 方面 的 考量 ! 

户 空间 (User Memory) 的 计算 公式 : (Heap size-Reserverd Memory) X25% (默认 

情况 下 是 23%) ， 这 是 用 户 可 以 支配 的 空间 ， 从 编程 的 角度 讲 ， 必 须 思考 一 件 事情 ， 用 户 可 

以 支配 多 少 空间 ， 和 否则 会 出 现 OOM。 举 一 个 简单 的 例子 ， 例 如 有 4GB 大 小 ， 那 么 默认 情况 

下 User Memory 大 小 是 〈4G-300M) X25%=949MB， 所 以 在 算 子 中 ， 从 Stage 的 Task 的 角 

度 讲 ，Task 运行 的 时 候 展开 每 个 RDD 算 子 的 内 部 ， 从 4GB 大 小 的 角度 讲 ，Stage 中 可 能 有 

很 多 算 子 ， 如 mapPartitions、map 等 ， 最 大 的 使 用 空间 不 能 超过 949MB， 这 不 是 指 Task 的 

运行 占用 的 空间 不 能 超过 949MB, 而 是 指 Stage 内 部 的 Task 的 所 有 算 子 在 运行 的 时 候 中 间 的 

数据 不 能 超出 949MB, 这 完全 是 两 码 事 。Task 的 运行 是 被 Spark 框架 使 用 的 , 用 户 无 能 为 力 ! 

用 户 只 不 过 把 自己 的 逻辑 和 数据 柑 入 到 后 来 框架 称 之 为 Task 一 个 又 一 个 RDD 的 算 子 而 已 ， 

我 们 谈 的 是 数据 在 RDD 算 子 中 一 个 Stage 内 部 一 个 Task 的 运行 这 些 算 子 占用 多 大 空间 ， 就 

像 mapPartitions 中 循环 遍历 数据 库 的 Record， 要 累加 数据 ， 中 间 使 用 array， 一 下 使 用 2GB 

就 会 出 现 OOM。 如 果 工 程 师 使 用 如 mapPartitions 等 一 个 Task 内 的 所 有 算 子 使 用 的 数据 空间 

的 大 小 大 约 949MB， 那 么 就 会 出 现 OOM。 

问题 : 100 个 Executor 每 个 为 4GB， 处 理 10GB 的 大 小 ， 是 否 出 现 OOM? 这 不 好 说 。 
每 个 Executor 的 内 存 是 4GB， 然 后 有 100 个 Executor， 处 理 的 磁盘 数据 一 共 才 100GB， 理 论 

上 分 配 在 100 个 Executor， 每 个 Executor 分 配 1GB 的 数据 ， 远 远 小 于 4GB 的 大 小 ， 为 什么 

会 出 现 OOM? 别 说 100GB 的 磁盘 数据 ，10GB 的 磁盘 数据 也 会 出 现 OOM， 因 为 在 

mapPartitions 算 子 ， 你 使 用 的 是 算 子 数据 ， 而 不 是 RDD 的 本 身 数据 超过 了 User Memory 的 

大 小 。 

(4) Spark Memory 是 框架 空间 ， 由 Storage Memory 和 Execution Memory 两 部 分 构成 。 

Storage Memory : 相当 于 Spark 1.6X 之 前 旧版 本 的 Storage 空间 ， 旧 版 本 的 Storage 占 
了 54% 的 Heap 空间 。 

Execution Memory: 相当 于 Spark 1.6X 之 前 旧版 本 的 Shuffle 空间 ， 命 名 非常 科学 ， 执 
行 分 成 许多 Stage， 分 析 的 就 是 Shuffle。 代 码 运行 的 时 候 也 是 谈 Shuffle。 从 整个 运行 的 流程 
讲 , 涉及 从 上 一 个 Stage 抓 数据 , 涉及 聚合 的 操作 。 旧 版 本 的 Storage 占 了 54% 的 Heap 空间 ， 
Shuffle 在 旧版 本 中 占 了 14.4% 的 Heap 空间 。 你 认为 这 个 数据 合理 吗 ? 是 数据 缓存 重要 ， 还 
是 执行 重要 ? 即 是 程序 先 跑 起 来 重要 呢 , 还 是 性 能 调 优 重要 ? 当然 是 程序 跑 起 来 重要 , Shuffle 
肯定 是 最 重要 的 ! 而 遗憾 的 是 ，Spark 1.6 义 之 前 的 版 本 中 没有 体现 Execution 最 重要 的 位 置 。 
现在 Storage 和 Shuffle 其 实 是 采用 Unified 的 方式 共同 使 用 (Heap size-300M) X75%。 默认 
情况 下 ，Storage 和 Execution 各 占 该 空间 的 50%， 默 认 情 况 下 平分 ， 但 是 这 里 并 没有 体现 
unified， 从 箭头 的 角度 看 ， 一 个 往 上 ， 一 个 往 下 。 补 充 : Storage Memory 新 版 本 和 旧版 本 有 
一 个 存储 是 一 样 的 ，Storage 中 会 负责 Persist、Unroll 及 Broadcast 的 数据 ， 广 播 是 广播 到 这 
里 面 ， 大 变量 地 广播 出 去 是 有 道理 的 ， 因 为 这 个 空间 还 很 大 ， 从 默认 的 情况 讲 ， 假 设 4GB 的 
空间 减 去 300MB， 乘 以 75%， 再 乘 以 50%， 算 下 来 大 约 1.5GB 的 空间 ， 确 实 可 以 广播 一 些 
大 变量 。 如 果 内 存 足 够 大 ， 可 以 广播 足够 大 的 变量 ， 对 性 能 有 很 大 的 提升 ， 对 于 线程 共享 的 ， 
Heap 的 对 象 是 线程 共享 的 。 而 线程 私有 的 是 Stack。 这 和 JVM 联系 在 一 块 了 。 
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也 可 以 从 另外 一 个 角度 讲 : 这 个 是 Execution Memory， 也 就 是 Task 运行 级 别 的 东西 ， 
Execution Memory 是 从 shuffleMapTask 的 角度 来 看 的 ， 作 为 Task 运行 的 ， 运 行 在 线程 之 上 ， 
这 个 User Memory 是 用 户 的 数据 ， 相 当 于 是 私有 的 ， 私 有 是 从 算 子 的 角度 讲 。 但 是 ， 整 体 上 
讲 ， 大 家 都 是 这 种 类 型 的 ， 也 可 以 认为 是 公有 的 。 这 和 Heap、Stack 是 两 个 完全 不 同 层 面 的 
东西 。 这 个 数据 为 什么 非常 重要 ? 是 因为 从 算 子 运 行 的 角度 来 讲 ， 尽 可 能 倾向 于 从 Storage 
Memory 中 拿 到 数据 ， 这 是 所 谓 的 内 存 计算 ， 我 们 的 Persist、Unroll 及 Broadcast 的 数据 都 在 
Storage Memory 空间 。 如 果 说 是 4GB 的 堆 大 小 ，Storage Memory 占 到 1.5GB 左右 , Execution 
Memory 也 是 占 到 1.5GB 左右 。 

Unified 统一 内 存 内 幕 。 

口 Storage Memory: 相当 于 旧版 本 的 Storage 空间 ,在 旧版 本 中 , Storage 占 了 54% 的 Heap 

空间 ， 这 个 空间 会 负责 存储 Persist、Unroll 以 及 Broadcast 的 数据 。 假 设 Executor 
有 4GB, 那么 Storage 空间 是 : (4GB-300MB)X75%X50%= 1423.5MB, 也 就 是 说 ， 
如 果 你 的 内 存 足 够 大 ， 你 可 以 扩 播 足够 大 的 变量 ， 扩 播 对 性 能 提升 是 一 件 很 重要 的 
事情 ， 因 为 它 所 有 的 线程 都 是 共享 的 。 从 算 子 运行 的 角度 讲 ，Spark 会 倾向 于 数据 直 
接 从 Storage Memory 中 抓 取 过 来 ， 这 也 就 是 所 谓 的 内 存 计算 。 

口 _ Execution Memory : 相当 于 旧版 本 的 Shuffle 空间 ， 这 个 空间 会 负责 存储 
ShuffleMapTask 的 数据 。 例 如 ， 从 上 一 个 Stage 抓 取 数据 和 一 些 聚 合 的 操作 ， 等 等 。 
在 旧版 本 中 , Shuffle 占 了 16% 的 Heap 空间 。Execution 如 果 在 空间 不 足 的 情况 下 ， 
除了 选择 向 Storage Memory 借 空间 外 ， 也 可 以 把 一 部 分 数据 Spill 到 磁盘 上 ,但 很 
多 时 候 基于 性 能 调 优 方面 的 考虑 ， 都 不 想 把 数据 Spill 到 磁盘 上 。 

Storage Memory 以 及 Execution Memory 互 借 空间 : 

第 一 点 ，Storage 和 Execution 在 适当 的 时 候 可 以 借用 彼此 的 Memory。Execution Memory 
可 以 使 用 Storage Memory。Storage Memory 也 可 以 使 用 Execution Memory。 

第 二 点 ， 当 Execution 空间 不 足 而 且 Storage 空间 也 不 足 的 时 候 ，Storage 空间 会 被 强制 
Drop 掉 一 部 分 数据 ， 来 解决 Execution 的 空间 不 足 问题 。 举 一 个 例子 ， 如 4GB 的 空间 ， 两 个 
加 一 起 空间 不 到 3GB， 非 要 用 4GB 的 空间 ， 怎 么 解决 也 解决 不 了 。Storage 空间 不 足 的 情况 
下 ，Execution 空间 也 不 足 ， 这 时 放弃 掉 Storage 的 一 部 分 空间 来 满足 Execution 的 空间 需求 ， 
为 什么 这 么 做 ? 原因 很 简单 ， 执 行 是 更 重要 的 事情 ! 运行 都 运行 不 起 来 了 ， 还 管 什么 缓存 ? 
这 里 使 用 的 是 drop， 没 有 说 丢失 ，drop 可 能 drop 到 Disk 中 ， 看 Persist 的 level 级 别 。 

UnifiedMemoryManager 伴生 对 象 里 的 apply 方法 中 设置 sparkmemory.storageFraction 
为 0.5。spark.memory.storageFraction 的 源码 如 下 。 


def apply (conf: SparkConf, numCores: Int): UnifiedMemoryManager = { 
val maxMemory = getMaxMemory (conf) 
new UnifiedMemoryManager( 
conf, 
maxHeapMemory = maxMemory, 
onHeapStorageRegionSize = 
(maxMemory * conf .getDouble ("spark.memory.storageFraction", 0.5)). 
toLong, 
全 numCores = numCores) 
9. } 


Execution 癌 Storage 借 空间 分 成 两 种 情况 。 
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(1) Execution 向 Storage 能 借 到 空间 的 情况 : Storage 曾经 向 Execution 借 了 空间 ， 由 于 
缓存 的 时 候 ， 数 据 非常 多 ，Execution 又 不 需要 那么 多 空间 ， 原 先 各 自 平 分 50%; Storage 默 
认 占 了 75% 的 空间 或 者 80%， 如 Execution 使 用 了 20% 的 空间 ， 那 么 空间 不 足 了 ，Execution 
需要 将 你 曾经 占用 的 空间 数据 强制 drop 掉 , Execution 会 向 内 存 管理 器 发 信号 , 若 原先 Storage 
Memory 占据 了 共用 空间 的 80% 的 话 ， 那 现在 Execution Memory 需要 占用 更 多 的 空间 ， 那 是 
否 是 说 Execution Memory 可 以 将 Storage Memory80% 的 数据 空间 都 拿 过 来 呢 ? 假设 Execution 
数据 特别 庞大 .肯定 不 是 的 , 这 种 情况 下 (Storage Memory 曾经 超过 了 50% 的 空间 ), Execution 
这 个 时 候 需要 更 多 的 空间 ，Execution 把 曾经 Storage Memory 占用 的 超过 50% 的 内 容 挤 掉 ， 
但 是 剩 下 的 ，Storage Memory 还 是 占据 50% 的 空间 ，Execution Memory 不 能 继续 把 别人 
(Storage Memory) 的 数据 挤 掉 了 ， 这 是 有 限度 的 。 

Execution 向 Storage 借 空间 的 第 一 种 情况 如 图 31-13 所 示 。 



























yUsed=80% st M Pool, Used=80% 
storageMemoryPool.memoryUsed=80% storageMemoryPool.memory Use 0 站 





Execution 借 给 Storage 的 30% 会 给 Execution 强 制 挤 掉 30% 


executionMemoryPonlmemoryUsed=50% 





| 
| 


executionMemoryPool.memoryUsed=20%, |executionMemoryPool.memoryUsed=20% 





图 31-13 Execution 向 Storage 借 空间 的 第 一 种 情况 


Storage 曾经 向 Execution 借 了 空间 ， 它 缓存 的 数据 可 能 非常 多 ， 然 后 Execution 又 不 
需要 那么 大 的 空间 (默认 情况 下 各 占 50%) ， 假 设 现在 Storage 占 了 80%，Execution 占 了 
20%， 然 后 Execution 说 自己 空间 不 足 ，Execution 会 向 内 存 管理 器 发 信号 把 Storage 曾经 占 
用 的 超过 50% 数 据 的 那 部 分 强制 挤 掉 ， 在 这 个 例子 中 挤 掉 了 30%。 

(2) Execution 向 Storage 拿 Memory，Memory 不 足 50% 的 空间 ， 这 个 时 候 就 需要 拿 
Memory 的 空间 了 。 这 是 Execution 可 以 强制 要 空间 的 两 种 情况 。 在 Execution 有 剩余 空间 的 
时 候 ，Storage Memory 可 以 向 Execution 借 空 间 ， 而 如 果 Execution 没有 空间 ， 那 么 Storage 
是 不 能 借 的 。 

Execution 向 Storage 借 空间 的 第 二 种 情况 如 图 31-14 所 示 。 





storageMemoryPool.memoryUsed=20% storageMemoryPool.memoryUsed=20% storageMemoryPool.memoryUsed=20% 








storageMemoryPool.memoryFree=30% 中 请 借 剩 余 空 间 30% | 
| 





executionMemoryPoolL.memoryUsed=80%| 
executionMemoryPool.memoryUsed=50%| |executionMemoryPool.memoryUsed=50% 

















图 31-14 Execution 向 Storage 借 空间 的 第 二 种 情况 


Execution 可 以 向 Storage Memory 借 空间 ， 在 Storage Memory 不 足 50% 的 情况 下 ， 
Storage Memory 会 把 剩余 空间 借 给 Execution。 相 反 , 当 Execution 有 剩余 空间 的 时 候 , Storage 
也 可 以 找 Execution 借 空间 。 

总 结 : 


(1) Execution 如 果 已 经 占据 了 Execution 和 Storage 的 80% 的 共用 空间 ， 这 个 时 候 
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Storage 需要 更 多 的 空间 ， 能 不 能 向 Execution 借 空间 ? ”把 默认 超过 50% 的 剩余 30% 的 空间 
拿 回 去 呢 ? 那 Storage 是 拿 不 回去 的 。Execution 是 最 重要 的 ! 

(2) 无 论 是 Execution， 还 是 Storage 的 空间 ， 在 Execution 空间 不 足 的 情况 下 ， 都 可 以 
Spill 到 磁盘 上 ， 但 Shuffle 最 影响 性 能 。 解 决 了 Shuffle 的 问题 ， 就 解决 了 95% 的 Spark 的 性 
能 问题 ,所 以 , Execution 很 强势 , Execution 可 以 强制 使 用 空间 ,这 是 有 道理 的 ,因为 Execution 
与 贡献 成 正比 。 Execution 将 Storage 的 空间 占用 了 , Storage 曾经 没有 占用 的 空间 被 Execution 
室 间 占用 了 ，Storage 如 果 需 要 空间 ，Execution 也 不 给 Storage! Execution 是 最 重要 的 ! 而 
如 果 Storage 占用 了 超过 50% 的 空间 ，Execution 需要 更 多 的 空间 ， 那 Execution 将 Storage 
空间 挤 掉 。 

(3) ShuffleMapTask 使 用 的 数据 到 底 在 什么 地 方 ? 

放 在 Execution Memory 中 ， 例 如 ， 聚 合 数据 过 来 ， 从 500 个 Executor 中 抓 数 据 过 来 ， 就 
放 在 Execution Memory 中 。 














31.13 Spark 2.2.X 中 Shuffle 中 Task 视角 内 存 分 配 管理 


Spark 2.2.X 内 存 管理 包含 两 种 类 型 : 统一 内 存 管理 〈(UnifiedMemoryManager) 、 静 态 内 
存 〈StaticMemoryManager) 。 这 两 种 内 存 的 管理 方式 最 终 要 落实 到 Task 的 运行 。 我 们 先 从 
源码 角度 对 Spark 内 存 管理 进行 回顾 ， 从 Spark Task 的 视角 解析 Task 运行 内 存 管理 源码 。 在 
Spark 2.2.X 中 默认 使 用 UnifiedMemoryManager 方式 ， 从 Task 运行 的 角度 来 讲 是 Execution 
级 别 的 ， 也 就 是 UnifiedMemoryManager 的 核心 是 Execution Memory。Execution Memory 主 
要 做 的 事情 是 Shuffle、Sort、Aggregate 等 。 为 什么 将 Execution Memory 的 内 存 调 大 ， 理 论 
上 讲 ，Execution Memory 的 内 存 越 大 ，LO 就 越 来 越 少 。 如 图 31-15 所 示 ，Execution Memory 
相对 于 内 存 的 占用 比较 强势 。 当 Execution Memory 空间 不 足 , 而 且 Storage Memory 空间 也 不 
足 的 时 候 ，Storage Memory 空间 会 被 强制 drop 掉 一 部 分 数据 ， 来 解决 Execution 空间 不 足 的 
问题 。 











Spark 内 存 存 傅 内 存 
spark.memory.fraction Spark.Memory.storageFraction 
0.75 或 者 75% 0.5 或 者 50%% 
存储 内 存 
执行 内 存 

















Java 堆 内 存 - 预 留 内 存 








和 














1.0-spark.memery.fraction 
1.0-0.75=0.25 或 者 25% 





| 玫 户 内 存 
















预 留 内 存 
spark. 预 贸 300MB 内 存 

















图 31-15 Spark 统一 内 存 管 理 
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Spark 2.2.X 内 存 管理 UnifiedMemoryManager 的 管理 方式 从 源码 的 角度 看 有 以 下 两 个 核 
心 方法 。 
口 acquireExecutionMemory。 
口 acquireStorageMemory。 
下 面 看 一 下 acquireExecutionMemory 的 源码 。acquireExecutionMemory 为 当前 的 运行 任 
务 Task 获得 的 内 存 空 间 。 
> . 
* ”尝试 为 当前 任务 Task 获取 numBytes 的 执行 内 存 (Execution Memory) ， 并 返回 获 
* 得 的 字 节 数 ， 如 果 没 有 可 以 分 配 的 内 存 ， 就 返回 0。 此 调用 可 能 会 阻塞 ， 直 到 在 某 些 情况 下 
* ”有 足够 的 空 闻 内 存 , 以 确保 每 个 Task 在 被 强制 Spi11 溢出 前 有 机 会 上 升 到 至 少 1/2N 的 
* ”总 内 存 池 (其 中 N 是 # 的 活动 任务 ) 。 如 果 任 务 数量 增加 ， 这 可 能 会 发 生 ， 但 旧 的 Task 
本 


已 经 分 配 了 内 存 
过 所 lh 
< 
4. override private[memory] def acquireExecutionMemory( 
5 numBytes: Long, 
6. taskAttemptId: Long, 
2 memoryMode: MemoryMode): Long = synchronized { 
:证 assertInvariants () 
加 assert (numBytes >= 0) 
3905 val (executionPool, storagePoo1， storageRegionSize, maxMemory) = 
memoryMode match { 
人 case MemoryMode.ON HEAP => ( 
2 onHeapExecutionMemoryPool, 
L135 onHeapStorageMemoryPool, 
a onHeapStorageRegionSsize, 
L154 maxHeapMemory) 
向 case MemoryMode .OFF HEAP => ( 
:区 酉 offHeapExecutionMemoryPool, 
18. offHeapStorageMemoryPool, 
19。 offHeapStorageMemory, 
WE maxOffHeapMemory) 
El } 


acquireExecutionMemory 根据 ON_HEAP、OFF_HEAP 两 种 不 同 的 方式 进行 模式 匹配 ， 
匹配 到 两 种 不 同方 式 的 时 候 ， 有 自己 的 执行 方式 。 内 部 onHeapExecutionMemoryPool， 
onHeapStorageMemoryPool 无 论 是 哪 种 方式 ， 都 会 调 maybeGrowExecutionPool。 


I. /*#* 

* 增 加 执行 池 (execution pool) 的 大 小 ， 缓 存 中 的 数据 可 能 被 清理 掉 ， 从 而 减少 了 存储 
* 池 storage pool。 当 获取 Task 的 内 存 时 ， 执 行 池 可 能 需要 多 个 尝试 ， 每 一 次 尝试 ， 必 
* 须 能 够 减少 另 一 个 Task 的 存储 ， 并 在 尝试 之 间 缓 存 一 个 大 的 块 

*/ 


if (extraMemoryNeeded > 0) { 
// 执 行 池 中 没有 足够 的 空闲 内 存 ， 所 以 尝试 从 storage pool 内 存 中 回收 内 存 。 可 
// 以 从 存储 池 中 回收 任意 内 存 。 如 果 存 储 池 已 经 超过 storageRegionSize， 可 以 回收 
//storage memory 存储 已 从 执行 内 存 execution memory 中 借 来 的 内 存 


这 
K 
4. def maybeGrowExecutionPool (extraMemoryNeeded: Long): Unit = { 
S 
6 





Val memoryReclaimableFromStorage = math.max( 
4 声 storagePool .memoryFree, 
9- storagePool .poolSize - storageRegionSize) 
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加 if (memoryReclaimableFromStorage > 0) { 

i // 回 收 尽 可 能 多 的 空间 是 必要 的 

2 val spaceToReclaim = storagePool .freeSpaceToShrinkPool( 

Se math.min (extraMemoryNeeded, memoryReclaimableFromStorage)) 
4. storagePool .decrementPoolSize (spaceToReclaim) 

i executionPool .incrementPoolSize (spaceToReclaim) 

Le . 

Ls 

Es } 


每 个 Task 能 够 使 用 的 内 存 理 论 上 是 多 大 呢 ? 这 是 很 重要 的 一 件 事 情 ， 因 为 能 推测 每 个 
Task 能 使 用 的 大 小 ， 计 算 公 式 为 poolSize/(2 XnumActiveTasks) 到 maxPollSize/numActive 
Tasks。 

在 maybeGrowExecutionPool 方法 中 ， 通 过 比较 storagePool.memoryFree 和 storagePool. 
poolSize - storageRegionSize 的 大 小 , 计算 一 个 最 大 值 : Storage Memory 剩余 的 内 存 和 Storage 
Memory 从 Execution Memory 借 来 的 内 存 哪个 大 。Storage 和 Execution 在 适当 的 时 候 可 以 借 
用 彼此 的 Memory，Storage Memory 在 Execution 执行 的 时 候 ，Execution Memory 有 空间 ， 
Storage Memory 缓存 的 时 候 向 Execution Memory 借用 一 些 空间 。 如 果 Execution Memory 内 存 
不 够 , 这 时 进行 一 个 比较 ,整个 Execution Memory 能 借 到 的 最 大 内 存 是 Storage Memory 曾经 
找 Execution memory 借 的 内 存 +Storage Memory 空闲 内 存 ; 根据 math.min(extraMemoryNeeded， 
memoryReclaimableFromStorage)， 如 果 Execution Memory 需要 内 存 的 大 小 小 于 能 借 到 的 最 大 
内 存 ， 就 以 实际 需要 的 内 存 为 准 。 

在 maybeGrowExecutionPool 中 调用 storagePool.decrementPoolSize(spaceToReclaim) 方 法 
减少 内 存 ， 调 用 executionPool.incrementPoolSize(spaceToReclaim 方法 增加 内 容 。 

口 storagePool.decrementPoolSize(spaceToReclaim)。 

口 executionPool.incrementPoolSize(spaceToReclaim)。 





le ws 
* 通 过 delta 字 节 扩大 池 
它 */ 
3 final def incrementPoolSize(delta: Long): Unit = lock.synchronized { 
4. require(delta >= 0) 
SE _poolSize += delta 
6 1 
| 
8 es 
* 通 过 delta 字 节 收缩 池 
9 */ 
0> final def decrementPoolSize(delta: Long): Unit = lock.synchronized { 
Es require(delta >= 0) 
2 require(delta <= poolSize) 
13s require( poolSize - delta >= memoryUsed) 
14. _poolsize -= delta 
15。 


接 下 来 阐述 Storage Memory。Storage Memory 只 有 一 种 情况 : 在 Execution Memory 空闲 
的 时 候 ，Storage Memory 能 借 走 Execution Memory 的 空闲 内 存 。acquireStorageMemory 中 有 
On-Heap、Off-Heap 两 种 方式 。 如 果 使 用 的 内 存 大 于 最 大 内 存 ， 就 返回 false。 其 中 val 
memoryBorrowedFromExecution = Math min(executionPoolmemoryFree，numBytes - storagePool. 
ImemoryFree)， 因 此 memoryBorrowedFromExecution 取 executionPool.memoryFree, (numBytes 
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- storagePool.memoryFree) 的 最 小 值 ， 为 多 大 内 存 取决 于 executionPool 有 多 大 空间 。 
无 论 是 storagePool， 还 是 executionPool， 都 要 和 memoryPoll 打交道 。 下 面 看 一 下 
memoryPool， 其 子 类 是 ExecutionMemoryPool 和 StorageMemoryPool。 





ki /** 
2 * 管理 可 调节 memory 内 存 大 小 的 记录 。 这 个 类 是 内 部 的 [MemoryManager]， 具 体 的 实现 
* 参见 子 类 
35 * @param lock a [MemoryManager] 用 于 同步 。 我 们 擦 去 类 型 Object， 以 避免 编 程 
* 错误 ， 因 为 这 个 对 象 只 能 用 于 同步 目的 
4. Private [memory] abstract class MemoryPool (lock: Object) { 
SE 
\ Q@GuardedBy ("lock") 
ya private[this] var poolSize: Long = 0 
8. 
9. /冰球 
* 返 回 池 的 当前 大 小 ， 以 字 节 为 单位 
0 本/ 
到 final def poolSize: Long = lock.synchronized { 
全 去 poolsize 
3 
4 
Se 
*# 返 回 池 中 空闲 内 存 的 数量 ， 以 字 节 为 单位 
6 */ 
六 final def memoryFree: Long = lock.synchronized { 
8. poolSize - memoryUsed 
9 } 
20 
C1 ee 
* 通 过 delta 字 节 扩大 池 
2 */ 
2 final def incrementPoolSize(delta: Long): Unit = lock.synchronized { 
这 require(delta >= 0) 
25. _poolSize += delta 
26:  j} 
27- 
有 SS /we 
* 通 过 delta 字 节 收缩 池 
29- */ 
30. final def decrementPoolSize(delta: Long): Unit = lock.synchronized { 
3 require(delta >= 0) 
2 require (delta <= poolSize) 
SBS require( poolSize - delta >= memoryUsed) 
34. poolSize -= delta 
B35. 
36. 
37: /we 
* 返 回 此 池 中 使 用 内 存 的 数量 (以 字 节 为 单位 》 
385 */ 
39. def memoryUsed: Long 
40. } 


我 们 看 一 下 StorageMemoryPool， 其 对 于 内 存 的 记录 和 管理 ， 一 方面 是 内 存 使 用 的 记录 ， 
一 方面 是 可 调整 大 小 内 存 〈 要 么 借 进 新 的 内 存 ， 要 么 借 出 内 存 ) 的 管理 。StorageMemoryPool 
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有 acquireMemory 、 releaseMemory 等 方法 。 我 们 在 Shuffle 的 时 候 ， 如 果 使 用 了 
UnifiedMemoryManagser 的 新 型 内 存 管理 方式 , 同时 开启 了 Off-Heap, 对 我 们 内 存 的 使 用 有 很 
大 影响 , 如 果 有 offHeapExecutionMemoryPool, 这 时 还 存 不 存在 一 个 概念 ， 从 StorageMemory 
中 获取 内 存 ? 实际 上 不 需要 找 StorageMemory 要 内 存 。 

每 个 Task 能 够 分 配 的 内 存 大 小 : poolSize/(2XnumActiveTasks) maxPollSize/numActive 
Tasks。 

口 val maxMemoryPerTask = maxPoolSize /numActiveTasks 。 

口 val minMemoryPerTask = poolSize /(2XnumActiveTasks)。 

如 果 Shuffle Task 计算 比较 复杂 , 业务 逻辑 比较 复杂 , 使 用 新 型 的 UnifiedMemoryManager 
内 存 管 理 方式 能 取得 较 好 的 效果 ; 但 是 , 如 果 计算 的 业务 逻辑 不 复杂 , Shuffle 计算 比较 简单 ， 
这 时 可 以 回 退 到 旧 的 内 存 管理 方式 ， 使 用 Static Memory Management 效果 会 更 好 ， 因 为 缓存 
空间 更 大 。 

在 这 个 基础 上 ,从 Task 的 角度 看 , Task 有 一 个 TaskMemoryManager。TaskMemoryManager 
管理 单个 任务 分 配 的 内 存 。TaskMemoryManager 类 中 的 大 多 数 复 杂 情 况 涉 及 64 位 长 的 
Off-Heap 非 堆 地 址 编码 。 在 O 信 Heap 非 堆 模式 下 ， 内 存 可 以 直接 寻 址 64 位 。 在 堆 模 式 下 ， 
内 存 是 对 象 内 的 基本 对 象 引 用 和 64 位 偏 移 的 组 合 寻 址 。 这 是 一 个 问题 ， 当 我 们 想 存 储 指针 的 
数据 结构 内 的 其 他 结构 ， 如 在 hashmaps 或 排序 缓冲 区 的 记录 内 的 指针 。 即 使 我 们 决定 使 用 
128 位 来 解决 内 存 问题 , 我 们 不 能 只 存储 基本 对 象 的 地 址 ， 由 于 堆 内 存 存在 GC， 因 此 它 不 能 
保证 保持 稳定 。 相 反 ， 使 用 64 位 地 址 方式 来 编码 记录 指针 : Off-Heap 非 堆 模式 ， 只 需 存储 
原始 地 址 ， 并 在 堆 模式 上 使 用 地 址 的 上 13 位 存储 “页 码 ” 和 较 低 的 51 位 来 存储 此 页 内 的 偏 
移 量 。 这 使 我 们 能 够 解决 8192 页 。 在 堆 模式 下 ,最 大 页 大 小 受 最 大 长 度 的 数组 限制 ,我们 能 
够 解决 8192X22 位 的 地 址 ， 大 约 35 百 万 兆 字 节 的 内 存 。 

TaskMemoryManager 肯定 要 申请 内 存 , 管理 内 存 以 及 释放 内 存 , 需要 一 个 MemoryBlock[] 
类 型 的 内 存 的 pageTable， 对 堆 的 内 存 进行 分 配 、 释 放 ， 这 个 都 是 JVM 进行 管理 的 ， 我 们 调 
用 new 函数 创建 一 个 MemoryBlock， 只 是 对 象 的 引用 ,不 是 具体 内 存 空间 的 地 址 。 堆 内 存 有 
GC 的 问题 ， 是 JVM 的 死 穴 ， 那 我 们 做 堆 外 内 存 ，JAVA 提供 了 ByteBufferBlock 的 工具 类 。 

接 下 来 看 一 下 MemoryLocation。MemoryLocation 是 内 存 位置 : 跟踪 内 存 地 址 (off-heap 非 
堆 地址 分 配 )， 或 者 JVM 对 象 的 偏 移 量 〈in-heap 堆 分 配 )。 





1. public class MemoryLocation { 

s 诺 @Nullable 

台 : Object obj; 

a 

同 肥 long offset; 

全 

8. public MemoryLocation (@Nullable Object obj, long offset) { 
9. this.obj = obj; 

Eli this.offset = offset; 

了 } 

2 

13 public MemoryLocation() { 

14. thist(tnull, Os 

Ls | 

0s 

17. public void setObjAndOffset (Object newObj, long newOffset) { 
8 this .obj = newObj; 
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this.offset = newOffset; 
1 


public final Object getBaseObject() { 
return obj; 


} 


public final long getBaseOffset() { 
return offset; 
} 
} 


MemoryBlock 继承 自 MemoryLocation。MemoryBlock 是 一 个 连续 的 内 存 块 ， 从 {@link 
MemoryLocation} 开始 具有 固定 大 小 的 存储 单元 。 


ll 
2 
区 
4 
5 


Woo 





public class MemoryBlock extends MemoryLocation { 
private final long length; 


/** 
* pageNumber 变量 是 可 选 的 页 码 ， 当 TaskMemoryManager 分 配 内 存 时 ， 使 用 MemoryBlock 
* 表示 页 ，pageNumber 是 公共 变量 ， 在 不 同 的 包 里 可 以 通过 TaskMemoryManager 修改 
*/ 

public int pageNumber = -1; 


public MemoryBlock (@Nullable Object obj, long offset, long length) { 
super (obj，offset) 
this.length = length; 

} 


/来 
* 返 回 内 存 块 的 大 小 
= 

public long size() { 
return length; 


} 


/** 
* 创 建 指向 长 数组 使 用 内 存 的 内 存 块 
*/ 
public static MemoryBlock fromLongArray (final long[] array) { 
return new MemoryBlock (array, Platform.LONG ARRAY OFFSET, array.length 
* 8L); 
} 


/** 
* 用 指定 字 节 值 填充 内 存 块 
四 
public void fill (byte value) { 
Platform.setMemory (obj, offset, length, value); 
} 


a) 


接 下 来 看 一 下 UnsafeMemoryAllocator， 一 个 简单 的 {@link MemoryAllocator} 使 用 
{@code Unsafe} 分 配 off-heap 非 堆 内 存 。 通 过 JVM 的 Platform 管理 分 配 内 存 。 


ha 


public class UnsafeMemoryAllocator implements MemoryAllocator { 
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QOverride 
public MemoryBlock allocate (long size) throws OutOfMemoryError { 
long address = Platform.allocateMemory (size); 
MemoryBlock memory = new MemoryBlock (null, address, size); 
if (MemoryAllocator.MEMORY DEBUG FILL ENABLED) { 
memory.fill (MemoryAllocator .MEMORY DEBUG FILL CLEAN VALUE); 
1 
return memory; 


} 


@Override 
public void free (MemoryBlock memory) { 
assert (memory.-obj == null) 


"baseObject not null; are you trying to use the off-heap allocator 
to free on-heap memory?"; 

if (MemoryAllocator.MEMORY DEBUG FILL ENABLED) { 
memory.fill (MemoryAllocator .MEMORY DEBUG FILL FREED VALUE); 

} 

Platform.freeMemory (memory.offset); 


} 


Ee 


再 回 到 TaskMemoryManager， 关 注 以 下 关键 点 。 


(1) 





希 表 的 内 


使 用 “ 非 


pageTable: 与 操作 系统 的 页 表 类 似 ， 此 数组 将 页 编号 映射 为 基准 对 象 指针 ， 支 持 哈 
部 64 位 地 址 ， 以 及 baseObjecttoffset 偏 移 量 ， 这 样 可 以 支持 堆 地 址 和 非 堆 地 址 。 当 
堆 地 址 分 配 ” 时 ， 此 映射 中 的 每 个 条 目 将 为 null。 使 用 堆 分 配器 时 ， 此 映射 中 的 项 


将 指向 页 的 基准 对 象 。 当 新 数据 页 被 分 配 时 ， 条 目 将 被 添加 到 该 map。 

1 private final MemoryBlock[] pageTable = new MemoryBlock[PAGE TABLE 
SIZE]; 

(2) PAGE_TABLE SIZE 是 页 表 中 的 条 目 数 。 

a private static final int PAGE TABLE SIZE = 1 << PAGE NUMBER BITS; 

(3) PAGE NUMBER_BITS: 用 于 处 理 页 表 的 位 数 。 

OFFSET_BITS: 用 于 在 数据 页 中 编码 偏 移 量 的 位 数 ， 实 际 为 51。 

1. ”/** 用 于 页 表 地 址 的 位 数 */ 

这 private static final int PAGE NUMBER BITS = 13; 

三 攻 

4. /*#* 用 于 数据 页 中 编码 偏 移 量 的 位 数 */ 

Si @VisibleForTesting 

6. static final int OFFSET BITS = 64 - PAGE NUMBER BITS; //51 

WT 

8. /** 页 表 条 目 数量 */ 

9. private static final int PAGE TABLE SIZE = 1 << PAGE NUMBER BITS; 

dQ 

Ei 
* 最 大 支持 的 数据 页 大 小 《以 字 节 为 单位 ) 。 原 则 上 ， 最 大 可 寻 址 页 大 小 是 
* (1L << OFFSET BITS) 字 节 ， 这 是 2+ petabytes。 但 是 ， 在 堆 分 配器 上 ， 最 大 页 大 
* 小 受 存储 long [] 数组 的 最 大 数据 量 的 限制 。 这 是 (2^32 - 1) X8 字 节 (或 16 gigabytes)。 
* 因 此 ， 最 大 是 16 gigabytes 

了 2 由 

3 public static final long MAXIMUM PAGE SIZE BYTES = ((1L << 31) - 1)x8L; 


= 096。 


第 31 章 ”Spark 大 数据 性 能 调 优 实战 专业 之 路 








14. 
15- /xs* 低 51 位 的 位 掩 码 */ 
16. private static final long MASK LONG LOWER 51 BITS = 0x7FFFFFFFFFFFFL; 


31.14 Spark 2.2.X 中 Shuffle 中 Mapper 端的 源码 实现 


Spark 是 MapReduce 思想 的 实现 之 一 ， 在 一 个 作业 中 ， 会 把 不 同 的 计算 按照 不 同 的 依赖 
关系 分 成 不 同 的 Stage， 前 面 的 Stage 是 后 面 Stage 的 Mapper 构建 的 一 个 有 向 无 环 图 。 我 们 
研究 Shuffle, 实际 上 要 研究 Mapper 端 怎 么 实现 ，Reducer 端 怎么 实现 ， 以 及 连接 Mapper 端 、 
Reducer 端的 过 程 ， 思 路 是 非常 清晰 的 。 

我 们 回顾 一 下 MapReduce 思想 在 Spark 的 具体 实现 ， 到 底 是 如 何 进 行 Shuffle 的 ， 主 要 
根据 依赖 关系 ， 如 果 有 宽 依 赖 ， 把 我 们 的 Stage 进行 划分 ， 划 分 的 时 候 就 构成 了 MapReduce， 
当然 ， 可 以 有 很 多 的 Stage， 构 建 出 很 多 MapReduce 的 关系 。 从 源码 的 角度 ， 要 思考 一 件 事 
情 :我 们 写 Spark 业务 代码 的 时 候 是 基于 RDD 进行 编程 , 当然 也 可 能 基于 DataSet、 DataFrame， 
但 它们 背后 也 是 RDD， 编 程 从 Shuffle 的 层面 讲 ， 最 终 肯 定 会 落 到 RDD 的 计算 部 分 ! 

只 有 在 RDD 的 计算 部 分 ， 我 们 才能 看 出 Shuffle 的 Map 和 Reduce， 为 什么 呢 ? 因为 我 
们 写 的 RDD， 如 果 是 窄 依赖 ， 在 同一 个 Stage 中 进行 计算 ， 如 果 是 最 后 一 个 Stage， 那 将 前 
面 的 计算 结果 最 终 汇 聚 起 来 ， 得 出 我 们 业务 想 要 的 结果 ; 如 果 不 是 最 后 一 个 Stage， 是 前 面 的 
Stage， 假 设 是 第 一 个 Stage， 那 从 外 部 或 本 地 磁盘 读 取 具体 的 数据 信息 ， 变 成 整个 依赖 关系 
的 Mapper。 如 果 下 面 还 有 其 他 的 Stage， 如 果 整 个 作业 有 100 个 Stage， 作 为 Mapper， 就 有 

-个 输出 ， 这 个 输出 就 是 Shuffle 的 输出 过 程 ， 下 一 个 Stage 假设 是 第 二 个 Stage， 就 有 一 个 
输入 过 程 ， 其 实 就 是 Shuffle 的 输入 过 程 。 所以， 要 研究 源码 具体 在 什么 地 方 进行 Mapper 的 
过 程 ， 如 果 了 解 Spark 的 内 核实 现 ， 就 明确 一 件 事情 ， 肯 定 是 在 RDD 的 Compute 方法 中 做 
的 。 我 们 看 一 个 RDD， 如 HadoopRDD。 

使 用 HadoopRDD 可 以 读 取 Hadoop 支持 的 文件 系统 或 数据 来 源 ( 例 如 ,HDFS 文件 .Hbase 
数据 源 ， 或 者 S3 数据 源 ) ， 使 用 MapReduce API 接口 (org.apache.hadoop.mapred) 。 主 要 
看 一 下 HadoopRDD 的 计算 方法 compute， 以 及 与 Shuffle 相关 的 部 分 ， 读 取 数 据 是 看 Reader 
部 分 ， 看 Reader 怎么 读 取 数 据 。 


;ls override def compute(theSplit: Partition, context: TaskContext): 
InterruptibleIterator[(K, V)] = { 














Ws val iter = new NextIterator[(K, V)] { 

Se 

ES private var reader: RecordReader[K, V] = null 

二 private val inputFormat = getInputFormat (jobConf) 

6 HadoopRDD.addLocalConfiguration( 

ps new SimpleDateFormat ("yyyyMMddHHmmss", Locale.US) .format 
(createTime), 

8 . context .stageld, theSplit.index, context.attemptNumber, jobConf) 

局 

0 reader = 

Ts ey 

2 inputFormat .getRecordReader (split.inputSsplit.value, jobConf, 

Reporter .NULL) 
3 [< 人 boatcht 
14. case e: IOException if ignoreCorruptFiles => 


>*]J097 
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Se logWarning(s"Skipped the rest content in the corrupted file: 
${split.inputSplit}", e) 

16. finished = true 

L715 null 

18。 

L908 a a 

20. new InterruptibleIterator[(K, V)] (context, iter) 

4 


HadoopRDD 是 从 磁盘 文件 读 取 数据 ， 作 为 整个 Stage 依赖 关系 的 开端 ， 读 取 数 据 进行 计 
算 的 时 候 肯 定 要 采用 函数 , 采用 函数 计算 肯定 要 用 Write 方法 , Write 方法 基于 ShuffleWriter， 
因为 数据 读 取 进来 要 进行 处 理 ， 无 论 是 简单 的 ， 还 是 复杂 的 ， 但 ShuffleWriter 进行 Writer 的 
时 候 ， 从 这 个 角度 来 讲 ， 我 们 认为 Stage 是 Mapper 部 分 ， 因 为 Mapper 部 分 会 将 自己 的 数据 
保存 在 本 地 或 者 其 他 地 方 ， 默 认 保存 在 本 地 ， 供 下 一 个 Stage 或 Reduce 读 取 数 据 ，Stage 读 
取 数 据 是 从 Driver 读 取 数 据 ， 那 我 们 看 一 下 ShuffleWriter。 
IE 
* 在 map 任务 中 获得 数据 ， 将 记录 写 入 到 Shuffle 系统 中 
private[spark] abstract class ShuffleWriter[K，V] { 
/** 将 一 个 记录 序列 写 入 该 任务 的 输出 */ 
Qthrows [IOException] 
def write (records: Iterator[Product2[K, V]]): Unit 


/**map 任务 完成 ， 关 闭 写 入 */ 
def stop (success: Boolean): Option[MapStatus] 


Fowawm 必 wm 
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ShuffleWriter 肯定 是 抽象 的 ， 为 什么 是 抽象 的 ?根据 面向 对 象 的 设计 法 则 ， 我 们 设计 一 
个 抽象 的 ShuffleWriter 就 可 以 有 不 同 Shuffle 的 实现 。 例 如 ，Spark 2.2.0 是 默认 的 
SortShuffleWriter ， 我 们 看 一 下 ShuffleWriter 的 继承 结构 。ShuffleWriter 的 子 类 包括 
SortShuffleWriter、UnsafeShuffleWriter (基于 钨 丝 计 划 ) 、BypassMergeSortShuffleWriter (在 
数据 规模 不 大 的 时 候 ， 退 化 为 HashShuffle 的 方式 ) 。 现 在 核心 做 的 是 SortShuffleWriter， 这 
取决 于 ShuffleManger。 

SortShuffleWriter 写 数据 有 一 个 过 程 。SortShuffleWriter 写 数 据 是 Writer 方法 ， 把 数据 一 
条 一 条 的 输出 。 


1. /** 写 入 记录 到 任务 的 输出 */ 

po override def write (records: Iterator[Product2[K, V]]): Unit = { 

攻打 sorter = if (dep.mapSideCombine) { 

4 require (dep.aggregator.isDefined, "Map-side combine without Aggregator 
specified!") 


三 车 new ExternalSorter[K, V, C]( 

6. context, dep.aggregator, Some (dep.partitioner), dep.keyOrdering, 
dep.serializer) 

村 } else { 

8. // 在 这 种 情况 下 , 我 们 既 不 聚合 ， 也 不 进行 排序 ， 因 为 我 们 不 关注 每 个 分 区 中 的 Key 键 是 

// 香 被 排序 ， 如 果 正 在 运行 的 操作 是 sortByKey， 这 将 在 Reducer 端 完成 

有 new ExternalSorter[K, V, V]( 

10. context, aggregator = None, Some (dep.partitioner), ordering = None, 
dep.serializer) 

> | 
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2 sorter.insertAll (records) 
13> 


14. // 不 要 在 Shuffle 写 入 时 间 中 计算 打开 合并 输出 文件 的 时 间 ， 因 为 它 只 打开 一 个 文件 ， 所 
// 以 通常 太 快 ， 无 法 精确 测量 〈 见 SPARK-3570) 


33< val output = shuffleBlockResolver.getDataFile (dep.shuffleId，mapId) 

< 及 val tmp = Utils.tempFileWith (output) 

何妨 tet 

8 Val blockId = ShuffleBlockId(dep.shuffleId， mapId， IndexShuffle 
BlockResolver.NOOP REDUCE ID) 

1 val partitionLengths = sorter.writePartitionedFile(blockId, tmp) 

0 shuffleBlockResolver .writeIndexFileAndCommit (dep.shufflelId, mapId, 
partitionLengths, tmp) 

2 mapStatus = MapStatus (blockManager .shuffleServerId, partitionLengths) 

2 } finally { 

这 3 if (tmp.exists() && !tmp.delete()) { 

24. logETrror (s"Error while deleting temp file ${tmp.getAbsolutePath}") 

i } 

26. } 

7 


SortShuffleWriter 的 Writer 方法 中 : 

(1) sorter 的 类 型 是 ExternalSorter[K, V，]， 我 们 要 创建 ExternalSorter 实例 ，sorter 是 要 
进行 排序 的 。 这 里 直接 new ExtemalSorter， 我 们 创建 的 sorter 用 于 Mapper 的 Task 的 输出 结 
果 进 行 排序 ， 如 果 需 要 对 输出 结果 进行 Mapper 端的 mapSideCombine， en External 级 

别 外 部 排序 进行 聚合 。 外 部 排序 是 指 中 间 的 数据 非常 多 ， 基 于 中 间 数 据 生 成 一 个 个 临时 的 小 
文件 ， 基 于 小 文件 进行 排序 。 如 果 不 进行 mapSideCombine， 那 A 进行 外 部 排序 ， 
但 不 进行 聚合 。 

(2) sorter.insertAll(records) 是 关键 的 代码 ， 基 于 sorter 具体 排序 的 实现 方式 , 将 数据 写 入 
缓冲 区 中 。 如 果 records 数据 特别 多 ， 可 能 会 导致 内 存 洲 出 ，Spark 现在 的 实现 方式 是 Spill 
溢出 写 到 磁盘 中 。 

(3) val output = shuffleBlockResolver.getDataFile(dep.shuffleId, mapId) 是 一 行 非常 关键 的 
代码 ， 从 shuffleBlockResolver 中 获取 输出 结果 ， 传 进来 的 是 shuffleId、mapId， 根 据 Shuffle 
的 编号 和 map 的 编号 获取 数据 文件 ， 因 为 要 写 数 据 。 然 后 通过 工具 类 
a 了 临时 文件 。 

(4) val blockId = ShuffleBlockId(dep.shuffleId, maplId, IndexShuffleBlockResolver. 
NOOP REDUCE ID)， 其 中 ShuffleBlockId 是 case class， 实 质 上 根据 Shuffle 的 ID 和 map 
的 ID 来 获取 ShuffleBlock 的 具体 的 ID 编号 。 

(5) val partitionLengths = sorter.writePartitionedFile(blockId, tmp)，writePartitionedFile 通 
过 ExtemalSorter 获取 的 所 有 数据 写 入 到 磁盘 文件 上 。 因 为 要 进行 外 部 排序 ， 有些 内 容 在 内 存 
中 ， 还 有 些 内 容 在 磁盘 文件 上 ， 有 很 多 临时 的 磁盘 文件 ， 这 时 我 们 获取 PartitionedFile， 需 要 
将 内 存 中 的 数据 和 磁盘 上 的 文件 数据 组 合成 一 个 更 大 的 文件 。 

(6) writeIndexFileAndCommit 按照 sort Shuffle 的 方式 分 成 两 部 分 : 一 部 分 为 创建 索引 的 
部 分 ， 另 外 一 部 分 是 我 们 创建 了 索引 文件 以 后 ， 在 写 数据 的 时 候 ， 把 每 个 Partition 数据 文件 
中 的 起 始 和 结束 位 置 写 入 到 我 们 创建 的 索引 文件 中 ， 这 样 我 们 的 Reducer 获取 位 置 的 时 候 ， 
首先 根据 索引 文件 确定 属于 这 个 Partition 的 文件 起 始 和 结束 位 置 ， 抓 到 属于 我 们 的 数据 。 

writeIndexFileAndCommit 方法 如 下 。 
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def writeIndexFileAndCommit( 
shufflelId: Int, 
mapId: Int, 
lengths: Array[Long], 
dataTmp: File): Unit = { 
val indexFile = getIndexFile(shuffleId, mapId) 
val indexTmp = Utils.tempFileWith (indexFile) 
| 
val out = new DataOutputStream(new BufferedOutputStream (new 
FileOutputstream (indexTmp) ) ) 
Utils.tryWithSafeFinally { 
// 获 取 每 个 块 的 长 度 ， 需 要 转换 成 偏 移 量 
var offset = 0L 
out .writeLong (offset) 
for (length <- lengths) { 
offset += length 
out .writeLong (offset) 
}1{ 
out.close() 


val dataFile = getDataFile (shuffleId, mapId) 
// 每 次 执行 IndexShuffleBlockResolver， 同 步 确认 下 面 的 检查 和 重 命名 是 原子 的 
synchronized { 
val existingLengths = checkIndexAndDataFile (indexFile, dataFile, 
lengths.length) 
if (existingLengths != null) { 
// 同 一 任务 的 另 一 次 尝试 已 经 成 功 地 写 入 了 map 输出 , 只 需 使 用 现 有 的 分 区 长 度 , 并 删除 
// 临 时 map 输出 
System.arraycopy (existingLengths, 0, lengths, 0, lengths.length) 
if (dataTmp != null && dataTmp.exists()) { 
dataTmp .delete () 
} 
indexTmp.delete() 
} else { 
// 这 是 为 这 个 任务 写 入 map 输出 的 首次 成 功 尝试 , 将 履 盖 我 们 写 的 所 有 索引 和 数据 文件 
if (indexFile.exists()) { 
indexFile.delete() 
上 
if (dataFile.exists()) { 
dataFile.delete() 


if (!indexTmp.renameTo (indexFile)) { 
throw new IOException("fail to rename file " + indexTmp + " to 
"+ indexFile) 
; 
if (dataTmp != null && dataTmp.exists() && !dataTmp.renameTo 
(dataFile)) { 
throw new IOException("fail to rename file " + dataTmp + " to 
"+ dataFile) 
} 
} 
) 
} finally { 
if (indexTmp.exists() && !indexTmp.delete()) { 
logError(s"Failed to delete temporary index file at ${indexTmp. 
getAbsolutePath}" 
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2 kk 

和 } 

54. } 

回 到 SortShuffleWriter 中 : 

(7) mapStatus = MapStatus(blockManager.shuffleServerld, partitionLengths): mapStatus = 
MapStatus(blockManager.shuffleServerId, partitionLengths): Map 在 最 后 的 时 候 将 我 们 的 元 数据 
写 入 到 MapStatus，MapStatus 返回 给 Driver， 这 里 是 元 数据 信息 ，Driver 根据 这 个 信息 告诉 
下 一 个 Stage， 你 的 上 一 个 Mapper 的 数据 写 在 什么 地 方 。 下 一 个 Stage 就 根据 MapStatus 得 
到 上 一 个 Stage 的 处 理 结果 。 
回顾 一 下 ， 使 用 sort Shuffle 的 方式 写 磁 盘 数 据 的 时 候 ，Mapper 本 身 有 一 个 数据 文件 ， 
也 有 Index 文件 。 我 们 把 相同 的 Partition 放 到 一 个 文件 中 ，Reducer 端 拉 取 数 据 的 时 候 ， 基 于 
Shuffle 读 取 数 据 。 

SortShuffleWriter 中 的 核心 代码 肯定 是 sorter.insertAll(records), 涉及 数据 写 入 到 内 存 缓冲 
区 及 进行 排序 、 内 存 和 磁盘 文件 的 管理 关系 ， 对 内 存 的 使 用 进行 自己 的 管理 。 

口 在 insertAll 之 前 有 判断 ， 在 Mapper 端 是 否 要 进行 聚合 ， 如 果 没 有 进行 聚合 ， 将 按照 

Partition 写 入 到 不 同 的 文件 中 ,最 后 按照 Partition 顺序 合并 到 同样 一 个 文件 中 。 在 这 
种 情况 下 ， 适 合 Partition 的 数据 比较 少 的 情况 ， 那 我 们 将 很 多 的 bucket 合并 到 一 个 
文件 ， 减 少 了 Mapper 端 输出 文件 的 数量 ， 减 少 了 磁盘 LO， 提升 了 性 能 。 

口 除了 既 不 想 排 序 ， 又 不 想 聚 合 的 情况 ， 也 可 能 在 Mapper 端 不 进行 聚合 ， 但 可 能 进行 

排序 ， 这 在 缓存 区 中 根据 PartitionID 进行 排序 ， 也 可 能 根据 Key 进行 排序 。 最 后 需 
要 根据 PartitionID 进行 排序 ， 比 较 适 合 Partition 比较 多 的 情况 。 如 果 内 存 不 够 用 ， 
就 会 溢 写 到 磁盘 中 。 

口 第 三 种 情况 ， 既 需要 聚合 ， 也 需要 排序 ， 这 时 肯定 先进 行 聚合 ， 后 进行 排序 。 实 现 
时 ， 根 据 Key 值 进行 聚合 ， 在 缓存 中 根据 PartitionID 进行 排序 ， 也 可 能 根据 Key 进 
行 排序 ， 默 认 情 况 不 需要 根据 Key 进行 排序 。 最 后 需要 根据 PartitionID 进行 合并 ， 
如 果 内 存 不 够 用 ， 就 会 溢 写 到 磁盘 中 。 

insertAll 方法 如 下 : 

(1) shouldCombine 判断 是 否 需要 聚合 。 一 个 基本 的 问题 : 怎么 知道 是 否 需要 聚合 ? 算 
子 和 算 子 的 配置 参数 决定 了 是 否 需 要 聚合 。 如 果 为 tue， 使 用 AppendOnlyMap 首先 在 内 存 对 
值 进行 组 合 。 

(2) 如 果 需 要 聚合 : 其 中 的 关键 函数 为 val update = (hadValue: Boolean, oldValue: 〇 ) 
=> {if (hadValue) mergeValue(oldValue, kv. 2) else createCombiner(kv. 2) }。 从 scala 语法 角 
度 讲 ，update 是 偏 函数 。 如 果 有 值 ， 就 将 新 的 value 和 旧 的 value 进行 合并 ;如果 hadValue 
是 false， 则 新 建 combiner， 相 当 于 没有 旧 的 值 。 从 Hadoop 的 角度 讲 ，Merge 相当 于 hadoop 
的 combiner， 相 同 Key 的 Value 进行 聚合 。 

然后 进行 循环 遍历 ，map.changeValue((getPartition(kv. 1), kv. 1), update) 调用 了 偏 函 数 
update， 又 更 新 了 Value 值 。 其 中 ，map 是 PartitionedAppendOnlyMap[K,C] 类 型 ， 是 一 个 存 
储 数据 的 内 存 结 构 。maybeSpillCollection 中 如 果 超 过 内 存 设 定 的 临界 值 ， 就 溢 写 到 磁盘 中 。 

(3) 如 果 不 需要 进行 聚合 ， 循 环 遍历 时 ，bufferinsert(getPartition(kv.， 1), kv. 1, kv. 2. 
asInstanceOf[C]) 直 接 把 数据 写 入 到 缓存 区 中 。 
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changeValue 调用 的 是 SizeTrackingAppendOnlyMap 的 changeValue 方法 。 


override def changeValue (key: K, updateFunc: (Boolean, V) => V): V={ 
val newValue = super.changeValue (key, updateFunc) 

super -afterUpdate () 

newValue 


} 

跟 到 AppendOnlyMap 类 的 changeValue 方法 ， 使 用 聚合 算法 获得 新 的 Value。var pos = 
rehash(k.hashCode) & mask 获取 位 置 ， 根 据 Key 的 hashCode 以 及 掩 码 获 得 位 置 。curKey 获 
取 Key 的 位 置 ， 偶 数位 (2Xpos) 表 示 Key 的 内 容 ， 奇 数位 (2Xpos + 1) 表 示 Value 的 内 容 。 


心 wwN 


1. def changeValue (key: K, updateFunc: (Boolean，V) => V): V = { 
2 assert(!destroyed, destructionMessage) 

号 8 Val k = key.asInstanceOf [AnyRef] 

出 if (k.eq(null)) { 

5 if (!haveNullValue) { 

[I 这 incrementSize() 

7 全 } 

8- nullValue = updateFunc (haveNullValue, nullValue) 
后 haveNullValue = true 

Oe return nullValue 

:上 } 

2 Var pos = rehash(k.hashCode) & mask 

Se var i=1 

dae while (true) { 

加 每 二 Val curKey = data(2 * pos) 

16 . if (curKey.eq(null)) { 

和 了 二 Val newValue = updateFunc (false, null.asInstanceOf[V]) 
18. data(2 * pos) = k 

外: 党 data(2 * pos + 1) = newValue.asInstanceOf [AnyRef] 
20. incrementSize() 

Zs return newValue 

2 } else if (k.eq(curKey) || k.equals(curKey)) { 

3 Val newValue = updateFunc (true, data(2 * pos + 1) .asInstanceOf[V]) 
24. data(l2 * pos + 1) = newValue.asInstanceOf [AnyRef] 
pA 六 return newValue 

5 全 } else { 

2 val delta = i 

B47 周 pos = (pos + delta) & mask 

29. i += 1 

30- } 

Le } 

3 null.asInstanceOf[V] // 从 不 达到 此 语句 ， 但 需要 进行 编译 
SS 

下 面 看 一 下 incrementSize 方法 ， 如 果 超 过 临界 值 ， 则 增加 空间 。 


private def incrementSize() { 
curSize += 1 
if (curSize > growThreshold) { 
growTable() 
} 
J 


继续 跟踪 growThreshold 函数 ， 其 扩容 双 倍 的 表 的 大 小 〈capacityX2) 和 重新 散 列 一 切 。 


protected def growTable() { 


aUAONDP 


ye 
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// 容 量 < MAXIMUM CAPACITY (2 ^ 29) ， 所 以 容量 X2 不 会 溢出 
Val newCapacity = capacity * 2 
require (newCapacity <= MAXIMUM CAPACITY, s"Can't contain more than 
${growThreshold} elements") 
val newData = new Array[AnyRef] (2 * newCapacity) 
val newMask = newCapacity - 1 
// 将 所 有 旧 值 插入 新 数组 中 。 注意 ,因为 旧 的 Key 值 是 唯一 的 ,所 以 在 插入 时 不 需要 检查 相 
// 等 性 
var oldPos = 0 
while (oldPos < capacity) { 
if (!data(2 * oldPos) .eq(null)) { 
val key = data(2 * oldPos) 
val value = data(2 * oldPos + 1) 
Var newPos = rehash (key.hashCode) & newMask 
var i=1 
Var keepGoing = true 
while (keepGoing) { 
Val curKey = newData(2 * newPos) 
if (curKey.eq(null)) { 
newData(2 * newPos) = key 
newData(2 * newPos + 1) = value 
keepGoing = false 
} else { 
val delta = i 
newPos = (newPos + delta) & newMask 
YE 
} 
} 
oldPos += 1 
i 
data = newData 
capacity = newCapacity 
mask = newMask 
growThreshold = (LOAD FACTOR * newCapacity) .toInt 
| 


到 SizeTrackingAppendOnlyMap 的 changeValue 方法 , super.changeValue(key, updateFunc) 


以 后 执行 super.afterUpdate() 操 作 ， 每 次 更 新 后 调用 回调 ， 在 其 中 会 调用 takeSample 方法 ， 取 
一 个 新 样本 的 当前 集合 的 大 小 ， 其 中 采用 estimate 方法 进行 估 值 。 





oAAON 





private def takeSample(): Unit = { 
samples .enqueue (Sample (SizeEstimator.estimate (this), numUpdates)) 
// 只 使 用 最 后 两 个 样本 进行 推算 。 
if (samples.size > 2) { 
samples.dequeue () 
} 
val bytesDelta = samples.toList.reverse match { 
case latest : : previous : : tail => 
(latest.size - previous.size).toDouble / (latest.numUpdates - 
previous.numUpdates) 
// 如 果 少 于 2 个 样品 ， 假 设 没有 变化 
case => 0 
上 
bytesPerUpdate = math.max(0, bytesDelta) 
nextSampleNum = math.ceil (numUpdates * SAMPLE GROWTH RATE) .toLong 
} 


“LM 
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再 次 回 到 SortShuffleWriter 的 Write 方法 中 的 关键 代码 sorter.insertAll(records), 如 果 不 进 





聚合 ， 则 直接 将 数据 写 入 到 buffer 中 。 


2 while (records.hasNext) { 

2 addElementsRead() 

< Val kv = records.next() 

4. buffer.insert (getPartition(kv. 1), kv. 1, kv. 2.asInstanceOf[C]) 
Ss maybeSpillCollection (usingMap = false) 


其 中 的 inert 方 法 : 


可 def insert (Partition: Int, key: K, value: V): Unit = { 


2 if (curSize == capacity) { 

Ss growArray () 

4. } 

1 data(l2 * curSize) = (partition, key.asInstanceOf [AnyRef]) 
6 data(2 * curSize + 1) = value.asInstanceOf [AnyRef] 

hs curSize += 1 

入 afterUpdate () 

9. } 


如 果 已 经 达到 容量 ， 再 扩容 2 倍 的 数组 大 小 。 


1. private def growArray(): Unit = { 

之 if (capacity >= MAXIMUM CAPACITY) { 

3 throw new IllegalStateException(s"Can't insert more than $ {MAXIMUM 
CAPACITY} elements") 

















4 } 

-人 val newCapacity = 

6. if (capacity * 2 < 0 11 capacity * 2 > MAXIMUM CAPACITY) { // 溢 出 

J MAXIMUM CAPACITY 

8 } else { 

9 capacity * 2 

0. } 

Ls val newArray = new Array[AnyRef] (2 * newCapacity) 

PT System.arraycopy (data, 0, newArray, 0, 2 * capacity) 

全 data = newArray 

4. capacity = newCapacity 

) resetSamples () 

|} 

再 次 回 到 SortShuffleWriter 的 Write 方法 中 的 关键 代码 sorter.insertAll(records), 在 insertAll 
方法 中 无 论 是 否 聚 合 ， 都 可 能 溢 写 到 磁盘 。 下 面 看 一 下 maybeSpillCollection。 

区 private def maybeSpillCollection(usingMap: Boolean): Unit = { 

这 Var estimatedSize = 0L 

:全 if (usingMap) { 

< 吕 estimatedSize = map.estimateSize() 

i if (maybeSpill (map, estimatedSize)) { 

后 六 map = new PartitionedAppendOonlyMap[K, C] 

Wa : 

8 } else { 

> 罗 estimatedSize = buffer.estimateSize() 

10s if (maybeSpill (buffer, estimatedSize)) { 

:by buffer = new PartitionedPairBuffer[K, C] 

Fh » 

Fo | 
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14. 
15s 
16. 
Bs 
18. 


if (estimatedSize > peakMemoryUsedBytes) { 
peakMemoryUsedBytes = estimatedSize 
} 
} 


其 中 的 maybeSpill 是 如 何 实现 的 ? 如 果 大 于 阔 值 myMemoryThreshold， 就 要 申请 内 存 空 
间 acquireMemory。 一 种 情况 ， 如 果 分 配 的 内 存 太 小 ， 就 返回 0; 另外 一 种 情况 ， 如 果 超过 了 
阔 值 ， 就 导致 当前 需要 的 内 存 大 小 需要 Spil。 但 在 Spill 之 前 会 先 扩容 一 次 。 源 码 如 下 。 





ls 





protected def maybeSpill (collection: C, currentMemory: Long): Boolean 
Sl 
var shouldSpill = false 
if (elementsRead % 32 == 0 && currentMemory >= myMemoryThreshold) { 
// 从 Shuffle 内 存 池 中 获取 当前 内 存 的 两 倍 
Val amountToRequest = 2 * currentMemory - myMemoryThreshold 
val granted = acquireMemory (amountToRequest) 
myMemoryThreshold += granted 
// 如 果 分 配 太 少 的 内 存 (无 论 是 tryToAcquire 返回 0， 还 是 已 超过 myMemory 
Threshold 阔 值 内 存 ) ， 都 将 溢出 当前 的 集合 
shouldSpil1 = currentMemory >= myMemoryThreshold 
} 
shouldSpil1l = shouldSpill || elementsRead > numElementsForce 
SpillThreshold 
// 实 际 上 溢出 
if (shouldSpill) { 
_spillCount += 1 
logSpillage (currentMemory) 
spill (collection) 
_elementsRead = 0 
_memoryBytesSpilled += currentMemory 
releaseMemory () 
} 
shouldSspill 
} 


点 击 进入 Spillable.scala 的 spill 方法 ， 这 里 没有 有 具体 的 实现 。 


protected def spill(collection: C): Unit 


查看 Spillable.scala 的 子 类 ExternalSorter 中 的 spill 方法， 生成 spillFile 文件 。 


co~awm 必 wm 


def spill(): Boolean = SPILL LOCK.synchronized { 

val spillFile = spillMemoryIteratorToDisk (inMemoryIterator) 

forceSpillFiles += spillFile 

val spillReader = new SpillReader (spillFile) 

nextUpstream = (0 until numPartitions) .iterator.flatMap { p => 
val iterator = spillReader.readNextPartition() 
iterator.map(cur => ((p, cur. 1), cur. 2)) 

hasSpilled = true 

true 

} 
) 


继续 跟踪 spilMemoryIteratorToDisk 方法 : val (blockId, file) = diskBlockManager. 
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createTempShuffleBlock0: 生成 临时 文件 的 block 和 临时 文件 本 身 ; batchSizes: 按 写 入 磁盘 
的 顺序 ， 记 录 本 身 的 大 小 。elementsPerPartition: 记录 分 区 有 多 少 元 素 。flush: 将 数据 写 入 磁 
盘 。 一 批 一 批 地 写 入 数据 ， 达 到 序列 化 大 小 的 时 候 进行 flush 操作 。 


js 


ww 


private[this] def spillMemoryIteratorToDisk (inMemoryIterator : 
WritablePartitionedIterator) 
: SpilledFile = { 
// 因 为 这 些 文件 可 能 在 Shuffle 过 程 中 被 读 取 ,所 以 它们 的 压缩 必须 由 spark. shuffle. 
//compress 参数 (取代 spark.shuffle.spill.compress) 控制 ， 所 以 这 里 我 们 需要 使 
// 用 createTempShuffleBlock; 更 多 的 上 下 文 参考 SPARK-3426 
val (blockId, file) = diskBlockManager.createTempShuffleBlock () 


// 这 些 变量 在 每 次 刷新 后 重 署 
var objectsWritten: Iong = 0 
val spillMetrics: ShuffleWriteMetrics = new ShuffleWriteMetrics 
val writer: DiskBlockObjectWriter = 
blockManager .getDiskWriter (blockId, file, serInstance, fileBufferSize, 
spillMetrics) 


// 按 写 入 磁盘 顺序 的 列表 空间 大 小 〈 字 节 ) 


Val batchSizes = new ArrayBuffer[Long] 


// 每 个 分 区 中 有 多 少 元 素 


val elementsPerPartition = new Array[Long] (numPartitions) 


// 将 磁盘 写 入 程序 的 内 容 刷 新 到 磁盘 ， 并 更 新 相关 变量 

// 在 处 理 结束 时 提交 写 入 

def flush(): Unit = { 
Val segment = writer.commitAndGet () 
batchSizes += segment.length 
diskBytesSpilled += segment.length 


objectsWritten = 0 
} 


var success = false 
try { 
while (inMemoryIterator.hasNext) { 
val partitionId = inMemoryIterator .nextPartition() 
require (partitionId >= 0 && partitionId < numPartitions, 
s"partition Id: S${partitionId} should be in the range [0, 
$s{numPartitions})") 
inMemoryIterator .writeNext (writer) 
elementsPerPartition (PartitionId) += 1 
objectsWritten += 1 


if (objectsWritten == serializerBatchSize) { 
flush () 
上 
上 
if (objectsWritten > 0) { 
flush() 
} else { 


writer.revertPartialWritesAndClose() 


上 


success = true 
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了 } finally { 

48. if (success) { 

49. writer.close() 

50. } else { 

ST // 在 设置 成 功 前 ， 如 文件 路 径 发 生 异常 ， 关 闭 内 容 ， 让 异常 进一步 抛 出 
S25 writer.revertPartialWritesAndClose() 

3 if (file.exists()) { 

54. if (!file-delete()) { 

大 logWarning(s"Error deleting ${file}") 

56. F 

SM : 

SS } 

呈 li 

60. 

61. SpilledFile (file, blockId, batchSizes.toArray, elementsPerPartition) 
2 >=} 


再 次 回 到 SortShuffleWriter, 我 们 将 在 后 面 继续 研究 sorter writePartitionedFile 方法 。 





31.15 Spark 2.2.X 中 Shuffle 中 SortShuffleWriter 排序 源码 
内 幕 解密 


Spark Shuffle 一 个 至 关 重 要 的 内 容 ， 是 我 们 的 SortShuffle 内 部 到 底 怎 么 排序 ? 这 里 的 排 
序 是 从 整个 框架 的 角度 讲 ，SortShuffle 在 不 考虑 业务 排序 的 情况 下 是 怎么 进行 排序 的 ? 
SortShuffle 最 原始 的 排序 是 按照 Partition 进行 的 。 

关于 SortShuffle 的 排序 ， 我 们 主要 看 它 的 Write 方法 ， 因 为 只 有 进行 输出 的 时 候 ， 才 涉 
及 排序 ， 涉 及 排序 中 非常 关键 的 一 行 代码 。 


1. val partitionLengths = sorter.wLitePartitionedFile (blockId，tmp) 


writePartitionedFile 的 基本 工作 机 制 是 ExtermalSorter 在 进行 排序 的 时 候 可 能 一 部 分 数据 
在 内 存 中 ， 一 部 分 数据 在 磁盘 上 。 在 磁盘 上 的 数据 可 能 是 一 个 ， 也 可 能 是 若干 个 ， 假 设 磁盘 
上 有 很 多 小 文件 ， 那 就 会 将 小 文件 Merge 成 一 个 大 文件 。 

(1) 数组 lengths: 跟踪 输出 文件 中 每 个 范围 的 位 置 

(2) 通过 blockManager 获得 一 个 writer，blockManager 管理 了 内 存 和 磁盘 的 读 写 。 

(3) 判断 spills.isEmpty， 如 仅 在 内 存 中 有 数据 的 处 理 方法 。 如 果 数 据 在 磁盘 中 ， 则 必须 
执行 合并 排序 ， 得 到 一 个 迭代 器 的 分 区 和 直接 写 入 数据 。 

(4) 数据 仅 在 内 存 中 的 情况 : 其 中 重要 的 一 行 代码 是 val it: WritablePartitionedIterator = 
collection.destructiveSortedWritablePartitionedIterator(comparator), 生成 了 一 个 迭代 器 Iterator， 
这 个 迭代 器 非常 重要 ， 因 为 排序 的 时 候 需要 迭代 器 。 那 么 我 们 来 看 一 下 
WritablePartitionedPairCollection 类 中 的 destructiveSortedWritablePartitionedIterator 方法 , 该 方 
法 遍历 数据 并 写 出 元 素 ， 而 不 是 返回 元 素 ， 记 录 根 据 PartitionID 及 给 定 的 比较 器 进行 排序 。 
这 可 能 会 破坏 基础 集合 。 
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1. def destructiveSortedWritablePartitionedIterator (keyComparator: Option 
[Comparator [K]]) 


2 WritablePartitionedIterator = { 

3 val it = partitionedDestructiveSortedIterator (keyComparator) 
4 new WritablePartitionedIterator { 

1 private[this] var cur = if (it.hasNext) it.next() else null 
\ 

了 5 def writeNext (writer: DiskBlockObjectWriter): Unit = { 

8 Writor mriteo(ceurs 1 27 Cur, 2) 

9 cur = if (it.hasNext) it.next() else null 

10 | 

11 

26 def hasNext(): Boolean = cur != null 

3 

da def nextPartition(): Int = cur. 1. 1 

15e } 

L600} 

人 ; 

18 . 


在 destructiveSortedWritablePartitionedIterator 方法 中 : 

口 partitionedDestructiveSortedIterator 生成 迭代 器 本 身 。 按 照 分 区 ID 和 给 定 比较 器 迭代 
数据 ， 这 可 能 破坏 基础 集合 。 

口 构建 一 个 对 和 象 WritablePartitionedIterator ， 和 友人 代 器 写 元 素 到 一 个 
DiskBlockObjectWriter ， 而 不 是 返回 元 素 。 每 个 元 素 有 关联 分 区 。 
WritablePartitionedIterator 从 设计 模式 讲 ， 相 当 于 一 个 代理 类 ， 代 理 的 是 迭代 器 的 功 
能 。 其 中 , cur 基于 迭代 器 partitionedDestructiveSortedIterator 的 it 生成 一 个 私有 变量 。 

partitionedDestructiveSortedIterator 方法 没有 具体 实现 。 


ha def partitionedDestructiveSortedIterator (keyComparator: Option 
[Comparator [K]]) 
2 : Iterator[((Int, K), V)] 


下 面 看 WritablePartitionedPairCollection 子 类 PartitionedAppendOnlyMap ，Partitioned- 
AppendOnlyMap 封装 了 一 个 map，Key 值 是 (partition ID, K)， 其 中 的 partitionedDestructive- 
SortedIterator 实现 如 下 。 


1. def partitionedDestructiveSortedIterator (keyComparator: Option 
[Comparator [K] ]) 


: Iterator[((Int, K), V)] = { 
区 志 val comparator = keyComparator.map (partitionKeyComparator). 
getOrElse (partitionComparator) 

4. destructiveSortedIterator (comparator) 
5 . 

partitionedDestructiveSortedIterator 的 keyComparator.map 操作 传 入 的 是 partitionKeyCom- 
parator， 然 后 调用 destructiveSortedIterator 方法 。 

destructiveSortedIterator 方法 按 排序 顺序 返回 映射 的 迭代 器 。 这 提供 了 一 种 方法 来 排序 
map 没有 使 用 额外 的 内 存 ， 以 破坏 map 的 有 效 性 为 代价 。 

destructiveSortedIterator 实现 了 一 个 算法 ， 里 面 涉 及 较 多 的 内 容 。 重 新 问 到 WritablePart- 
itionedPairCollection.scala: 
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时 def destructiveSortedWritablePartitionedIterator (keyComparator 
Option[Comparator [K]]) 

: WritablePartitionedIterator = { 

KE 二 val it = partitionedDestructiveSortedIterator (keyComparator) 

4. new WritablePartitionedIterator { 

nn 


destructiveSortedWritablePartitionedIterator 传 入 了 一 个 参数 keyComparator， 这 个 参数 是 
从 哪里 来 的 ? 回 到 之 前 的 SortShuffleWriter 的 write 方法 中 : 


2. val blockId = ShuffleBlockId(dep.shufflelId, mapId, IndexShuffleBlock- 
Resolver .NOOP REDUCE ID) 
3 val partitionLengths = sorter.writePartitionedFile(blockId, tmp) 
4 shuffleBlockResolver.writeIndexFileAndCommit (dep.shuffleId, mapId, 
partitionLengths, tmp) 
Ss mapStatus = MapStatus (blockManager.shuffleServerId, partitionLengths) 
6 


从 writePartitionedFile 跟 进去 ，ExtemalSorter.scala 的 writePartitionedFile 方法 中 : 


if (spills.isEmpty) { 
// 只 有 内 存 数 据 的 情况 下 
val collection = if (aggregator.isDefined) map else buffer 
val it = collection.destructiveSortedWritablePartitionedIterator 
(comparator) 
while (it.hasNext) { 


二 
2 
< 入 
4 


au 


这 里 就 传 入 了 一 个 comparator，comparator 是 从 哪里 来 的 ?跟踪 源码 comparator 本 身 是 
-个 比较 器 ， 是 一 个 函数 。 


} 


Ls private def comparator: Option[Comparator[K]] = { 
SR if (ordering.isDefined || aggregator.isDefined) { 
当世 Some (keyComparator) 

5 } else { 

5 None 

6- 

Ts 


} 
keyComparator 方法 如 下 。 





1 private def comparator: Option[Comparator[K]] = { 

区 if (ordering.isDefined || aggregator.isDefined) { 

35 Some (keyComparator) 

网 局 } else { 

5 None 

全 } 

了 全 } 

可 到 WritablePartitionedPairCollection 类 的 destructiveSortedWritablePartitionedIterator 方 











法 ,生成 了 迭代 器 让 之 后 使 用 了 一 个 代理 类 WritablePartitionedIterator, 接 下 来 怎么 跟 源码 呢 ? 
为 在 实际 运行 的 时 候 要 进行 排序 , 那 我 们 回 到 ExtemalSorter 类 的 writePartitionedFile 方法 ， 
框架 本 身 会 基于 Partition 进行 排序 。 

writePartitionedFile 里 面 有 一 个 partitionedIterator 方法 ， 这 个 方法 非常 重要 。 
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5 def writePartitionedEFile( 


2 

3 if (spills.isEmpty) { 

2 // 只 有 内 存 数据 的 情况 下 

3 

局 二 } else { 

We // 我 们 必须 执行 合并 排序 ;通过 分 区 获得 一 个 迭代 器 ， 并 直接 写 入 所 有 内 容 
[请 for ((id, elements) <- this.partitionedIterator) { 
9. if (elements.hasNext) { 

10. for (elem <- elements) { 

LE: writer.write(elem. 1, elem. 2) 

2 } 

反光 val segment = wIiter.commitandGet () 

14. lengths (id) = segment.length 

DS | 

I 


下 面 看 一 下 ExtemalSorter 类 的 partitionedIterator 方法 : 返回 一 个 迭代 器 ， 在 其 中 写 入 所 
有 数据 ， 和 迭代 器 按 分 区 和 聚合 函数 进行 分 组 。 对 于 每 个 分 区 ,基于 其 中 的 内 容 有 一 个 迭代 器 ， 
这 些 将 按 顺 序 访问 (没有 读 到 上 一 个 数据 前 ， 不 能 跳 过 一 个 分 区 ) 。 对 于 每 个 分 区 ， 根 据 分 
区 partition ID 的 顺序 返回 一 个 key-value。 我 们 一 次 合并 所 有 溢出 的 文件 , 也 可 以 修改 为 支持 
层次 合并 。 





: def partitionedIterator: Iterator[(Int, Iterator[Product2[K, 
| 
之 val usingMap = aggregator.isDefined 
< 挡 val collection: WritablePartitionedPairCollection[K, C] = if 
(usingMap) map else buffer 
4. if (spills.isEmpty) { 
本 // 特 殊 情况 : 如 果 只 在 内 存 数 据 中 ， 就 不 需要 合并 流 ， 甚 至 不 需要 使 用 分 区 ID 以 外 的 任 
// 何 键 来 排序 
6. if (!ordering.isDefined) { 
yi // 用 户 没有 请 求 排序 键 ， 所 以 只 能 按 分 区 ID 排序 ， 而 不 是 按键 Key 排序 
gs groupByPartition (destructiveIterator (collection.partitioned— 
DestructiveSortedIterator (None) ) ) 
上 } else { 
108 // 我 们 需要 通过 分 区 ID 和 键 Key 进行 排序 
了 groupByPartition (destructiveIterator( 
2 collection.partitionedDestructiveSortedIterator (Some (key- 
Comparator) ) ) ) 
3 } 
+ 下 加 } else { 
To // 合 并 溢出 和 内 存 数据 
16 . merge (spills, destructiveIterator!( 
A collection.partitionedDestructiveSortedIterator (Comparator) ) ) 
Ss } 
xi: 


partitionedIterator 本 身 返 回 的 是 一 个 Iterator， 在 Mapper 端 进行 aggregate 操作 。 特 殊 情 
况 : 如 果 只 有 内 存 数据 ， 就 不 需要 合并 ， 甚 至 不 需要 按 分 区 ID 排序 。 
(1) 如 果 没 有 spills， 则 spills 为 空 。 
口 如 果 ordering.isDefined 为 false， 在 不 进行 排序 ordering 的 情况 下 : 用 户 没 有 请 求 排 
序 Keys， 所 以 groupByPartition 只 能 按 分 区 ID 排序 ， 而 不 是 按 Key 排序 ; 
groupByPartition 传 入 的 参数 值 是 None， 即 不 对 Key 进行 排序 。 


ss 


第 31 章 ”Spark 大 数据 性 能 调 优 实战 专业 之 路 








口 如 果 ordering.isDefined 为 tue， 则 我 们 需要 根据 partition ID 和 Key 进行 排序 。 

(2) 在 有 spills 的 情况 下 ， 一 部 分 数据 在 磁盘 上 ， 合 并 溢出 和 内 存 数据 。 

下 面 看 一 下 groupByPartition 方法 , 给 定 一 个 stream((partition, key), combiner), 假定 要 按 
分 区 ID 排序 ， 将 每 个 分 区 的 键 值 对 组 合 为 子 迭 代 器 。 


人 wN 


6- 





private def groupByPartition(data: Iterator[((Int, K), C)]) 
Iterator[ (Int, Iterator[Product2[K, C]])] = 
{ 
val buffered = data.buffered 
(0 until numPartitions) .iterator.map (p=> (p, new IteratorForPartition 
(p, buffered))) 
} 


groupByPartition 根据 partition 进行 排序 后 , 还 根据 partition 进行 聚合 。IteratorForPartition 
是 单个 partition 的 迭代 器 。IteratorForPartition 代码 如 下 。 


Private [this] class IteratorForPartition (PartitionId: Int, data: 
BufferedIterator[((Int, K), C)]) 
extends Iterator[Product2[K, C]] 


override def hasNext: Boolean = data.hasNext && data.head. 1. 1 == 
partitionId 


override def next(): Product2[K, C] = { 
if (!hasNext) { 
throw new NoSuchElementException 
, 
Val elem = data.next () 
(elem= 1 2 elem. 2) 
上 


IteratorForPartition 仅 从 底层 缓冲 区 读 取 给 定 分 区 ID 的 元 素 的 迭代 器 流 ， 假 设 这 个 分 区 


是 下 一 个 被 读 取 ， 更 容易 返回 来 自 内存 集 合 的 分 区 进 代 器 。 





口 














到 ExternalSorter 的 partitionedIterator 方法 ，groupByPartition(destructiveIterator(collec- 


tion.partitionedDestructiveSortedIterator(Some(keyComparator)))), 这 里 就 是 根据 partition ID 和 
Key 进行 排序 的 情况 。partitionedDestructiveSortedIterator 是 天 然 的 排序 ， 字 母 按照 字母 排序 ， 
数字 按照 数字 排序 ， 当 然 也 可 以 自 定义 业务 类 的 排序 。 


i 
这 
车 


// 我 们 需要 通过 分 区 ID 和 键 Key 进行 排序 
groupByPartition (destructiveIterator ( 
collection.partitionedDestructiveSortedIterator (Some (key- 
Comparator)))) 


下 面 看 一 下 keyComparator 的 代码 ， 根 据 Key 的 hashCode 进行 排序 。 


于 


auw 心 wN 


private val keyComparator: Comparator [K] = ordering.getOrElse 
(new Comparator[K] { 
override def compare(a: K, b: K): Int = { 
val hl = if (a == null) 0 else a.hashCode() 
val h2 = if (b == null) 0 else b.hashCode() 
if (hl < h2) -1 else if (hl == h2) 0 else 1 
i 
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回 到 ExtermalSorter 的 partitionedIterator 方法 ， 查 看 partitionedDestructiveSortedIterator 方 
法 ， 按 照 分 区 耳 和 给 定 比 较 器 迭代 数据 。 这 可 能 破坏 基础 集合 。 其 继承 者 为 
PartitionedAppendOnlyMap 和 PartitionedPairBuffer。 


Fl def partitionedDestructiveSortedIterator (keyComparator: Option 
[Comparator [K]]) 
2 : Iterator[((Int, K), V)] 





Es 








到 ExtermalSorter 的 partitionedIterator 方法 ， 根 据 是 否 进 行 aggregator 操作 区 分 两 种 情况 。 
(1) 如 果 需 要 聚合 ， 则 使 用 PartitionedAppendOnlyMap。 

(2) 如 果 不 需要 进行 聚合 ， 则 使 用 PartitionedPairBuffer。 

1. val usingMap = aggregator.isDefined 


2 val collection: WritablePartitionedPairCollection[K, C] = if (usingMap) 
map else buffer 


看 一 下 类 的 申明 ， 数 据 结构 在 溢出 前 存储 在 内 存 对 象 中 。 取 决 于 是 否 有 聚合 器 ， 我 们 可 
以 把 数据 放 入 AppendOnlyMap， 或 者 将 它们 存储 在 数组 缓冲 区 buffer 中 。 
1. Q@volatile private var map: PartitionedAppendOonlyMap[K, C] = new 
PartitionedAppendonlyMap[K, C] 


2 Qvolatile private var buffer: PartitionedPairBuffer[K, C] = new 
PartitionedPairBuffer[K, C] 








PartitionedPairBuffer 和 PartitionedAppendOnlyMap 类 中 ， 我 们 主要 看 partitioned- 
DestructiveSortedIterator 方法 。 
下 面 看 一 下 PartitionedPairBuffer 的 partitionedDestructiveSortedIterator 方法 。 


3 override def partitionedDestructiveSortedIterator (keyComparator: 
Option[Comparator[K]]) 

会 : Iterator[((Int, K), V)] = { 

加 val comparator = keyComparator.map (partitionKeyComparator) .getOrElse 
(partitionComparator) 

new Sorter (new KVArraySortDataFormat[ (Int, K), AnyRef]) .sort (data, 0, 
curSize, comparator) 

Se iterator 

6. } 


使 用 partitionKeyComparator 将 原 有 的 Comparator 进行 了 替换 ，partitionKeyComparator 
是 partitionKey 的 二 次 排序 。 两 种 情况 : 如 果 keyComparator 传 入 了 值 ， 则 根据 partitionID 和 
Key 进行 排序 ， 如 果 keyComparator 没有 传 入 值 ， 则 只 根据 partitionid 进行 排序 。 

我 们 看 一 下 partitionKeyComparator， 通 过 partition ID 和 Key 对 它们 进行 排序 。 


2 def partitionKeyComparator [K] (KkeyComparator: Comparator[K]): 
Comparator[(Int, K)] = { 
new Comparator[(Int, K)] { 
override def compare(a: (Int, K), b: (Int, K)): Int = { 
val partitionDiff = a. 1 = Bb. 1 
if (partitionDiff != 0) { 
partitionDiff 

} else { 

: keyComparator.compare (la. 2, b. 2) 


Fionamwm 必 mwN 
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回 到 PartitionedPairBuffer 的 partitionedDestructiveSortedIterator 方法 ， 这 里 调用 new 函 
数 创建 一 个 Sorter。Sorter 内 部 使 用 timSort 排序 。 

下 面 看 一 下 PartitionedAppendOnlyMap。 

7 private[spark] class PartitionedAppendonlyMap[K, V] 


这 extends SizeTrackingAppendonlyMap[(Int, K), V] with WritableParti-— 
tionedPairCollection [K, V] { 


3 
4. def partitionedDestructiveSortedIterator (keyComparator: Option 
[Comparator [K]]) 

上 : Iterator[((Int, K), V)] ={ 

6 val comparator = keyComparator.map (partitionKeyComparator). 
getOrElse (partitionComparator) 

ti destructiveSortedIterator (comparator) 

8 三 } 

于 


5 必 def insert (Partition: Int, key: K, value: V): Unit = { 
ki update ( (partition, key), value) 
} 


:| 


PartitionedAppendOnlyMap 中 最 关键 的 是 destructiveSortedIterator，destructiveSortedIte- 
Iator 方法 以 排序 的 顺序 返回 map 的 友 代 器 ， 这 以 牺牲 map 的 有 效 性 为 代价 ， 提 供 了 一 种 不 
需要 额外 的 内 存 对 map 进行 排序 的 方法 。 

PartitionedAppendOnlyMap 的 destructiveSortedIterator 方法 中 调用 new 函数 创建 一 个 
Sorter，Sorter 内 部 也 是 使 用 timSort 排序 。 


31.16 Spark 2.2.X 中 Sort Shuffle 中 timSort 排序 源码 
具体 实现 


timSort 排序 方式 是 一 种 相对 权衡 了 各 方面 的 排序 方式 , 假如 排序 的 数据 分 成 很 多 不 同 的 
块 ，timSort 有 很 好 的 排序 性 能 上 的 表现 。 因 此 ， 有 必要 彻底 研究 一 下 timSort 是 怎么 实现 的 。 
相 顾 一 下， 我 们 跟踪 代码 是 从 Sorter.scala 中 跟 到 timSort 的 ， 也 就 是 进行 ExternalSorter 
的 时 候 要 进行 排序 ， 默 认 情况 下 基于 PartitionID 进行 排序 ， 对 PartitionID 进行 排序 并 不 意味 
着 对 数据 本 身 进 行 排序 ， 我 们 在 Sorter.scala 中 用 到 了 timSort。 研 究 一 下 timSort 的 源码 ， 会 
发 现 timSort 和 MergeSort 有 一 点 类 似 ， 实 质 上 有 很 大 的 区 别 ， 我 们 可 以 初步 感知 timSort 的 
排序 方式 。MergeSort 排序 的 方式 把 数据 分 成 很 多 片 ， 开 始 分 成 很 多 小 文件 ， 最 终 把 小 文件 
合并 成 大 文件 。timSort 可 以 认为 是 MergeSort 排序 的 改良 。 

TimSort 优化 MergeSort 排序 ， 把 它 变 成 稳定 的 、 适 应 的 、 和 迭代 的 排序 ，timSort 基于 分 
布 式 的 排序 ， 效 率 有 很 大 的 提升 。 

MergeSort 排序 默认 长 度 是 1， 归 并 的 时 候 自 动 生成 归并 元 素 ; timSort 是 连续 递增 的 ， 
将 其 中 的 一 块 数据 run 进行 反 转 ，run 有 自己 具体 的 实现 算法 ，run 可 以 认为 是 一 块 固定 大 小 
的 数据 , 如果 插入 一 段 数 据 , 数据 的 长 度 小 于 ran 的 长 度 , timSort 就 会 采用 二 分 的 insertSort， 
进行 一 些 局 部 的 优化 。MergeSort 排序 归并 是 固定 的 ， 而 timSort 是 随机 的 ， 会 有 判断 条 件 。 
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timSort 在 很 多 地 方 都 有 使 用 ， 如 安 卓 等 。 

TimSortjava 位 于 org.apache.sparkutil.collection 包 里 面 ， 其 中 还 有 一 个 测试 类 
TestTimSort， 如 创建 测试 数组 等 。TimSortjava 阅读 源码 的 技巧 先 看 sort 排序 ， 然 后 将 其 他 
的 成 员 、 方 法 关联 起 来 。TimSortjava 代码 如 下 。 


public void sort (Buffer a, int lo, int hi, Comparator<? Super K> c) { 

2 assert c != null; 

3 

让 int nRemaining = hi - lo; 

全 if (nRemaining < 2) 

6 return; // 大 小 为 0 和 1 的 数组 总 是 排序 的 

8 . // 如 果 数 组 是 小 的 数组 ， 则 执行 一 个 "mini-TimSort”， 其 没有 做 合并 

二 if (nRemaining < MIN MERGE) { 

10. int initRunLen = countRunAndMakeAscending(a, lo, hi, c); 

21 binarySort (la, lo, hi, lo + initRunLen, c); 

py return; 

3 } 

Las 

ES ys 
*# 在 数组 中 从 左 向 右 遍 历 ， 寻 找 natural runs， 扩 展 短 的 natural runs 到 minRun 
* 元 素 中 ， 合 并 runs 的 时 候 保持 堆栈 不 变 

16. */ 

Ey SortState sortState = new SortStatel(la, c, hi - 1o); 

LB int minRun = minRunLength (nRemaining); 

5 属 do 1{ 

20. // 标 识 下 一 个 run 

Zl; int runLen = countRunAndMakeAscending(a, lo, hi, c); 

223 

人 3 // 如 果 run 是 短 的 ， 就 扩展 到 min (minRun，nRemaining) 

2 if (runLen < minRun) { 

本 int force = nRemaining <= minRun ? nRemaining : minRun; 

7 binarySort (a, lo, lo + force, lo + runLen, c); 

二 用 runLen = force; 

285 } 

9 

20 // 压 送 run 到 等 待 运行 堆栈 ， 并 可 能 合并 

区 上 sortState.pushRun (lo, runLen); 

3 sortState.mergeCollapse (); 

335 

34. // 查 找 下 一 个 run 

3 lo += runLen; 

36e nRemaining -= runLen; 

号 } while (nRemaining != 0); 

8 

398 // 合 并 所 有 剩余 的 run， 以 完成 排序 

40 . assert lo == hi; 

HE SortState .mergeEForceCollapse () 7 

42. assert sortState.stackSize == 1; 

43. . 

在 TimSortjava 代码 中 : 


口 nRemaining 是 未 排序 的 数组 的 长 度 ， 是 从 数组 的 角度 考虑 的 ， 不 过 timSort 是 分 布 
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口 


如 果 nRemaining 小 于 2， 数 组 大 小 为 0、1 时 ， 此 时 数据 已 经 排 好 序 ， 通 过 retum 语 
名 直接 返回 。 数 组 大 小 为 0、1 是 已 经 排序 的 ， 那 就 不 用 排序 。 
如 果 nRemaining 小 于 MIN_ MERGE， 就 变 成 mini-TimSort， 就 是 不 使 用 归并 排序 。 
countRunAndMakeAscending 计算 得 到 递增 数据 的 长 度 ， 然 后 使 用 binarySort 二 分 排 
序 法 ， 这 个 是 基本 的 排序 法 。 

之 后 是 SortState。SortState 是 构建 一 个 栈 ， 创 建 一 个 timSort 实例 ， 维 护 我 们 排序 的 
状态 信息 。 

minRunLength: 获得 最 小 的 run 长 度 。 

do while 循环 首先 得 到 递增 数列 的 长 度 , 如 果 runLen 小 于 minRun, 则 使 用 binarySort 
二 分 搬入。sortState pushRun(lo，runLen) 是 入 栈 ， 把 即将 运行 的 run 放 入 栈 中 。 
sortState.mergeCollapse(): 可 能 进行 归并 排序 ， 内 部 视 不 同 的 情况 进行 判断 。lo += 
runLen: 下 一 个 要 进行 的 run。 

循环 结束 后 ， 所 有 剩余 的 run 完成 排序 。 

















TimSort.java 从 源码 实现 的 角度 讲 ， 第 一 个 比较 关键 的 一 行 代码 是 int initRunLen = 
countRunAndMakeAscending(a, lo, hi, c); 我 们 看 一 下 countRunAndMakeAscending， 首 先 找 到 
rn 的 尾部 ， 在 while 中 进行 判断 ， 反 转 我 们 的 mn， 最 后 返回 run 的 长 度 。 

countRunAndMakeAscending: 返回 run 的 长 度 。run 在 指定 的 开始 位 置 ， 如 果 它 是 递减 
的 ， 则 反 转 运行 。 如 一 个 run 是 最 长 的 升序 序列 : allo] <= allo + 1] <= allo + 2] <= … 或 者 是 
最 长 的 递减 序列 : a[lo] > allo+1]> aflo+2]> … 一 个 稳定 的 归并 排序 中 严格 的 降序 定义 
是 必要 的 ， 能 安全 调用 进行 反 转 降序 序列 ， 而 不 破坏 稳定 性 。 


口 
口 
口 
口 
口 





@param a: 数组 中 的 run 将 被 计数 ， 并 可 能 反 转 。 

@param lo: run 第 一 个 元 素 的 索引 。 

@param hi: run 可 能 包含 的 最 后 一 个 元 素 的 索引 ， 需 要 {@code lo <hi} 。 
@param c: 用 于 排序 的 比较 器 。 

@retum: 返回 mn 的 长 度 。 





countRunAndMakeAscending 代码 如 下 。 


: 属 


FFPeoowwawm 必 wm 
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private int countRunAndMakeAscending (Buffer a, int lo, int hi, 
Comparator<? super K> c) { 
assert lo < hi; 
int runHi = lo + 1; 
if (runHi == hi) 
return 1; 


K key0 
K keyl 


= s.newKey(); 
= s.newKey(); 
// 查 找 run 的 末尾 ， 如 果 递减 ， 则 反 转 范围 
if (c.compare (s.getKey (a，IunHi++，key0)，s.-getKey(a，1o，key1l)) < 0) 
{ // 降 序 
while (runHi < hi gg& c.compare(s.getKey(a, runHi, key0), s.getKey (a, 
runHi - 1, keyl)) < 0) 
runHit++; 
reverseRange (a, lo, runHi); 
} else { // 升 序 


while (runHi <hi sg c.compare(s.getKey(a, runHi, key0), s.getKey (a, 


we 
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回 到 TimSortjava 的 sort 方法 , 我 们 看 一 下 binarySort 的 代码 。 二 分 法 排序 将 指定 数组 的 





runHi - 1，keyl)) >= 0) 
TunHi++7 


上 


return runHi - lo; 


指定 部 分 进行 插入 排序 ， 小 数量 数据 排序 的 最 好 情况 需要 进行 O(nlogn) 次 比较 ， 但 最 坏 情 况 
下 需 移动 OU^2) 次 数据 。 如 果 指 定 范围 的 初始 部 分 已 排序 ， 此 方法 可 以 利用 它 : 该 方法 假定 
包含 索引 {@code lo} 的 元 素 ， 包 括 到 {@code start}， 排 除 已 排序 的 数据 。 


口 


口 
口 
口 
口 


@param a: 需 进行 排序 的 数组 范围 。 

@param lo: 索引 中 的 第 一 个 元 素 进行 排序 的 范围 。 

@param hi: 索引 中 的 最 后 一 个 元 素 之 后 的 范围 进行 排序 。 

@param start: 索引 中 的 第 一 个 元 素 的 范围 是 未 知 排序 的 〈{@code lo <= start <= hi})。 
@param C: 比较 器 用 于 排序 。 


TimSort.java 的 binarySort 代码 如 下 。 


"Gs 


private void binarySort (Buffer a, int lo, int hi, int start, Comparator<? 
super K> c) { 


assert lo <= start && start <= hi; 


if (start == 1o) 
S 七 ar 七 + 十 7 
K key0 s.newKey(); 


K keyl = s.newKey(); 

Buffer pivotStore = s.allocate(1); 

for ( ; start < hi; start++) { 
s.copyElement (a, start, pivotSstore, 0); 
K pivot = s.getKey (pivotStore, 0, key0); 


// 将 left (right) 设 置 为 一 个 a[start] (pivot) 的 索引 
int left = lo; 
int right = start; 
assert left <= right; 
/** 
* 不 变量 
* pivot >= all in [lo, left). 
ww plivot' < all dn right, start): 
*/ 
while (left < right) { 
4nt mid= {left + right) >2>> 5 
if (c.compare (pivot, s.getKey(a, mid, key1)) < 0) 
right = mid; 
else 
left = mid + 1; 
bs 
assert left == right; 


/** 

* 不 变量 仍然 保持 不 变 : pivot >= all in [1o, left) 以 及 pivot <all in [left, 
* Start)， 所 以 pivot 属于 left。 注 意 : 如 果 元 素 等 于 pivot， 则 left 指向 在 它们 
* 之 后 的 第 一 个 slot-- 这 就 是 为 什么 这 种 类 型 是 稳定 的 : 滑动 元 素 给 pivot 腾 出 空间 
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本 #7 

4 int n = start - left; // 要 移动 的 元 素 的 数目 

355 // 默 认 情 况 下 ，Switch 切换 是 对 数组 复制 优化 

36- Switch (n) { 

号 7 case 2: s.copyElement (a, left + 1, a, left + 2); 
>|: 六 case 1: s.copyElement (a, left, a, left + 1); 

9 break; 

40 . default: s-copyRange (a，1left，a，1left + 1, n); 
41. 有 

42 . s.copyElement (pivotStore, 0, a, left); 

43. } 

44. 

本 到 TimSortjava 的 sort 方法 ， 这 里 有 一 个 minRunLength， 这 个 方法 得 到 最 小 ran 的 长 








度 ，minRunLength 里 面 是 一 个 while 循环 ， 循 环 条 件 是 n 大 于 等 于 MIN_MERGE， 这 里 
MIN_MERGE 是 32， 即 2 的 5 次 方 ， 然 后 进行 基本 的 移 位 运算 。minRunLength 的 代码 如 下 。 


private int minRunLength(int n) { 





assert n >= 0; 
ne 0 // 如 果 有 1 位 被 移 位 ， 则 为 1 
while (n >= MIN MERGE) { 

r= nn 

[1 


} 


return n+i+r; 


1 


oa N 


TimSort.java 的 sort 方法 中 ，sortState.pushRun(lo, runLen) 中 的 pushRun 就 是 一 个 栈 。 


3 private void pushRun(int runBase, int runLen) { 
2 this.runBase[stackSize] = runBase; 

< 二 this.runLen[stackSize] = runLen; 

4. stackSizet++; 

9 


} 


TimSortjava 的 sort 方法 中 有 一 句 很 关键 的 代码 sortState.mergeCollapse()， 它 的 源码 
如 下 。 


了 private void mergeCollapse() { 

区 while (stackSize > 1) { 

三 区 int n= stackSize 二 之 7 

二 辆 if ( (n >= 1 && runLen[n-1] <= runLen[n] + runLen[n+1]) 
LT 11 (n >= 2 && runLen[n-2] <= runLen[n] + runLen[n-1])) { 
65 if (runLen[n - 1] < runLen[n + 1]) 

2 1 

8 } else if (runLen[n] > runLen[n + 1]) { 

9. break; // 建 立 不 变量 

305 二 

3 mergeAt (n); 

25 } 

43 | 


mergeCollapse 据说 openJDK 在 实现 mergeCollapse 时 有 Bug， 在 插入 数据 的 时 候 插 入 的 
顺序 可 能 有 问题 。 但 Spark 进行 过 充分 测试 ，mergeCollapse 没有 Bug。 其 中 的 关键 代码 是 
mergeAt。 我 们 看 一 下 mergeAt 的 实现 ，runLen[i] 如 果 是 栈 项 的 第 3 个 位 置 ， 则 将 被 交换 为 
栈 项 的 第 二 个 位 置 。gallopRight 从 我 们 的 runl 找到 run2 中 第 一 个 元 素 的 位 置 。 在 此 基础 上 ， 


= 
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rnl 中 的 元 素 可 以 被 忽略 ， 将 从 run2 找到 runl 中 最 后 一 个 元 素 的 位 置 ， 然 后 run2 的 元 素 被 
忽略 。 


ds private void mergeAt (int i) { 

2 assert stackSize >= 2; 

< assert i >= 0; 

4. assert i == stackSize - 2 || i == stackSize - 37 

由 全 

65 int basel = runBase[il]; 

了 int lenl = runLen[i]; 

Be int base2 = runBase[i + 1]; 

Qs int len2 = runLen[i + 1]; 

10. assert lenl > 0 && len2 > 0; 

二 assert basel + lenl =— base2; 

E23 

43 Vhs 
* 记 录 组 合 runs 的 长 度 : 如 果 i 是 倒数 第 三 个 run， 在 最 后 一 个 run 滑动 时 在 这 个 
* 合 并 中 没有 涉及 ) ， 当 前 的 run (i+1) 在 任何 情况 下 都 会 消失 

14. */ 

D> runLen[i] = lenl + len2; 

16. if (i == stackSize - 3) { 

:好 二 runBase[i + 1] = runBase[i + 2]; 

:党 runLen[i + 1] = runLen[i + 2]; 

9 } 

20. stackSize-——; 

2 

和 2225 K key0 = s.newKey(); 

2 

24. /4 
* 找 到 run2 的 第 一 个 元 素 在 runl 中 的 位 置 ， runl 的 前 一 个 元 素 可 以 忽略 (因为 它 
* 们 已 经 到 位 》 

2 */ 

26 int k = gallopRight (s.getKey (a, base2, key0), a, basel, lenl, 0, c); 

2 assert k >= 0; 

8s basel += k; 

29e lenl -= k. 

30. if (lenl == 0) 

区 是 return; 

32 

3 7/ # 
* 找 到 runl 的 最 后 一 个 元 素 在 run2 中 的 位 置 , run2 的 后 一 个 元 素 可 以 忽略 (因为 它 
* 们 已 经 到 位 》 

34. */ 

< len2 = gallopLeft (s.getKey(a, basel + lenl - 1, key0), a, base2, len2, 

Len2 = 让 和) 

36< assert len2 >= 0; 

基地 全 if (len2 == 0) 

38. return; 

39. 

40. // 合 并 剩余 的 runs， 使 用 min (len1， len2) 临时 数组 的 元 素 

A if (lenl <= len2) 

站 这 mergeLo (basel, lenl, base2, len2); 

43. else 

44. mergeHi (basel, lenl, base2, len2); 

45. } 


其 中 有 一 个 方法 gallopRight， 类 似 于 gallopleft， 除 非 包 含 相等 的 元 素 key，gallopRight 


“le 


第 31 章 “Spark 大 数据 性 能 调 优 实战 专业 之 路 








返回 最 右边 的 相等 元 素 的 索引 。 
口 @param key: 关键 的 搜索 插入 点 。 
口 @param a: 需要 搜索 的 数组 。 
口 @param base: 第 一 个 元 素 的 索引 范围 。 
口 @param len: 范围 的 长 度 须 大 于 0。 
口 @param hint: 开始 搜索 的 索引 ，0 <= hint <n 结果 越 接 近 hint， 方 法 运行 得 越 快 。 
口 @param c: 用 于 排序 和 搜索 范围 的 比较 器 。 
口 @retum k: 返回 k，0 <=k<=n 这 样 alb +k-1] <= key <alb+k]。 
gallopRight 的 代码 如 下 。 


(本 private int gallopRight (K key, Buffer a, int base, int len, int hint， 
Comparator<? super K> c) { 








2 assert len > 0 && hint >= 0 && hint < len; 

3 

4. int ofs = 1; 

5 int lastofs = 0; 

[请 K keyl = s.newKey(); 

Ts 

= if (c.compare (key，s.getKey(a，base + hint，keyl)) < 0) { 

9. // 飞 奔 模 式 向 左 归并 直到 a[bthint - ofs] <= key < a[b+hint - lastofs] 

10. int maxOfs = hint + 1; 

Ds while (ofs < maxOfs && c.compare (key, s.getKey (a, base + hint - ofs, 
key1)) < 0) { 

2 lastOfs = ofs; 

SR aEs = Ors < 0) ls 

14. if (ofs <= 0) // 整 数 溢出 

i ofs = maxOfs; 

16. . 

4 if (ofs > maxOfs) 

18. ofs = maxOfs; 

19。 

208 // 计 算 相对 于 B 的 偏 移 量 

2 int tmp = lastOfs; 

222 lastOfs = hint - ofs; 

全 ofs = hint - tmp; 

24. } else { //alb + hint] <= key 

25. //Gallop right 直到 a[b+hint + lastOfs] <= key < a[b+hint + ofs] 

26- int maxOfs = len - hint; 

2 while (ofs < maxOfs && c.compare (key, s.getKey (a, base + hint + ofs, 
kev 于 > 一) 

28 . lastOfs = ofs; 

2 ofs =" (ofs << 1) + 1 

305 if (ofs <= 0) // 整 数 溢出 

3 ofs = maxOfs; 

2 } 

333 if (ofs > maxOfs) 

34. ofs = maxOfs; 

-全 

36. // 计 算 相对 于 B 的 偏 移 量 

人 lastofs += hint; 

385 ofs += hint; 

2 站 

40. assert -1 <= lastOfs && lastOfs < ofs && ofs <= len; 

41. 


wl 
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42. 


43. 
44. 
45. 
46. 
47. 
48 . 
49 . 
S50 
SE 
SZ 
535 
54. 
55 . 


/** 
* 现在 ，a[b + lastOfs] <= key < a[b + ofs]， 所 以 关键 是 lastofs 的 right， 
* 而 不 是 ofs 的 right， 使 用 不 变量 a[b + lastofs - 1] <= key < a[b + ofs] 
* 做 二 元 搜索 
本 

TastOfs++7 


while (lastofs < ofs) { 
int m = lastOfs + ((ofs - lastofs) >>> 1); 


if (c.compare(key, s.getKey(la, base + m, key1)) < 0) 


ofs = m; //key < alb + m] 
else 
lastofs =m+1; //alb + m] <= key 


3 
assert lastOfs == ofs; // 这 样 , a[b + ofs - 1] <= key < a[b + ofs] 
return ofs; 


} 


前 面 的 代码 中 还 有 一 个 gallopLeft， 定 位 将 指定 Key 插入 到 指定 的 排序 范围 ， 如 果 该 范 
围 包含 等 于 Key 的 元 素 ， 则 返回 最 左边 的 相等 的 元 素 的 索引 。 


口 
口 
口 
口 
口 
口 
口 





@param key: 关键 的 搜索 插入 点 。 
@param a: 搜索 的 数组 。 
@param base: 第 一 个 元 
@param len: 范围 的 长 度 需 
@param hint: 开始 搜索 的 索引 ，0 <= hint <n 结果 越 接 近 hint， 方 法 运行 得 越 快 。 
@param c: 用 于 排序 和 搜索 范围 的 比较 器 。 

@retum k: 返回 k，0 <=k <=n 这 样 af[b +k-1]<key <=a[b+k], 假设 afb-1] 是 负 
无 穷 大 ，a[b + ol] 是 无 穷 大 。 关 键 属于 索引 b +k， 换 句 话说 ，a 的 第 一 个 k 元素 应 先 
于 Key， 最 后 n-k 元 素 应 该 排 在 其 之 后 。 









4 索引 范围 。 


gallopLeft 代码 如 下 。 


i 


Fo -aawm 心 wN 


ey 


private int gallopLeft (K key, Buffer a, int base, int len, int hint, 
Comparator<? super K> c) { 

assert len > 0 && hint >= 0 && hint < len; 

int lastOfs = 0; 

int ofs = 1; 

K key0 = s.newKey(); 


if (c.compare (key, s.getKey(a, base + hint, key0)) > 0) { 

//Gallop right 直到 a[basethint+lastOfs] < key <= a[basethint+ofs] 
int maxOfs = len - hint; 
while (ofs < maxOfs && c.compare (key, s.getKey (a, base + hint + ofs, 
key0)) > 0) { 

lastOfs = ofs; 

mEnc = 

if (ofs <= 0) // 整 数 溢出 

ofs = maxOfs; 

J 
if (ofs > maxOfs) 

ofs = maxOfs; 


// 计 算 相对 于 基底 偏 移 量 
lastOofs += hint; 
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21> ofs += hint; 

2 } else { //key <= a[base + hint] 

23> //Gallop left 直到 a[basethint-ofs] < key <= a[base+hint-lastofs] 

24. final int maxOfs = hint + 1; 

i while (ofs < maxOfs && c.compare (key, s.getKey(a, base + hint - ofs, 
key0)) <= 0) { 

2 lastofs = ofsz 

2 ofs’= ‘(ofs << 1) + 1; 

28. if (ofs <= 0) // 整 数 溢出 

也 ofs = maxOfs; 

30. 1 

i if (ofs > maxOfs) 

3 ofs = maxOfs; 

3 

3 // 计 算 相对 于 基底 偏 移 量 

人 int tmp = lastOfs; 

36. lastOfs = hint = ofs; 

SE ofs = hint - tmp; 

38- 

395 assert -1 <= lastOfs && lastOfs < ofs && ofs <= len; 

40. 

41. Dy 


* 现在 ，a[base+lastofs] < key <= a[basetofs]， 所 以 关键 是 lastofs 的 
* right, 而 不 是 ofs 的 right, 使 用 不 变量 a [base + lastofs - 1] < key <=a[base 
* + ofs] 做 二 元 搜索 


42. Ey 

43. lastOFEst+s 

44. while (lastOfs < ofs) { 

45. int m = lastOfs + ((ofs - lastOfs) >>> 1); 

46. 

47. if (c.compare (key, s.getKey(a, base + m, key0)) > 0) 

48 . lastofs =m+ 1; //albase + m] < key 

9. else 

50. ofs = m; //key <= a[base + m] 

Ss } 

52. assert lastOfs == ofs; // 这 样 , a[base + ofs - 1] < key <= a[base 
+ ofs] 

号 3 return ofs; 

54. } 











可 到 TimSort,java 的 mergeAt 方 法 ,下 面 看 一 个 关键 代码 mergeLo(basel, lenl, base2, len2); 

mergeLo 方法 以 稳定 的 方式 合并 两 个 相 邻 mn。 第 一 个 run 的 第 一 个 元 素 必须 大 于 第 二 个 run 

的 第 一 个 元 素 (a[basel] > a[base2])， 第 一 个 run 的 最 后 一 个 元 素 (a[basel + len1-1]) 必 须 大 于 

二 个 run 的 所 有 元 素 。 这 种 方法 只 有 当 lenl < len2 的 时 候 被 调用 ;， 另 一 个 类 似 的 方法 

mergeHi 在 lenl > = len2 的 情况 下 被 调用 。 (如果 lenl 一 len2, 任何 一 种 方法 都 可 被 调用 〉。 
口 @param basel: 第 一 个 run 的 第 一 个 元 素 被 合并 的 索引 。 

口 @param len1: 第 一 个 run 被 合并 的 长 度 〈 必 须 大 于 0) 。 

口 @param base2: 第 二 个 run 被 合并 的 第 一 个 元 素 的 索引 (必须 是 aBase + aLen) 。 

口 @param len2: 第 二 个 run 被 合并 的 长 度 (必须 大 于 0) 。 





nx 








mergeLo 代码 如 下 。 

i private void mergeLo (int basel, int lenl, int base2, int len2) { 
2 assert lenl > 0 && len2 > 0 &s basel + lenll== base27 

A 
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4 // 复 制 第 一 个 ran 到 临时 数组 

5 Buffer a = this.a; // 为 了 性 能 

Gs Buffer tmp = ensureCapacity(len1) 

7 s.copyRange (la, basel, tmp, 0, lenl); 
8 


9. int cursorl = 0; // 临 时 数组 的 索引 
DS int cursor2 = base2; // 整 数 a 的 索引 
I int dest = basel; // 整 数 a 的 索引 
12. 
3 // 移 动 第 二 个 run 的 第 一 个 元 素 ， 处 理 退 化 情况 
二 全 s.copyElement (a, cursor2++, a, dest++); 
I if (--len2 == 0) { 
L605 5s.copyRange (tmp, cursorl, a, dest, lenl1); 
:铭记 return; 
18 . 
于 9 if (lenl == 1) { 
20 . Ss.copyRange (la, cursor2, a, dest, len2); 
2 s.copyElement (tmp, cursorl, a, dest + Len2) 
// 最 后 的 run 1 到 合并 结束 

和 2 return; 
人 } 
24. 
全 与 K key0 = s.newKey() 7 
26. K keyl = s.newKey(); 
31 庆 
人 8 Comparator<? super K> c = this.c; // 使 用 本 地 变量 提升 性 能 
小 局 int minGallop = this.minGallop; WA EE 总 
30. outer: 
3 while (true) { 
2 int count1 = 0; // 第 一 个 run 胜出 的 次 数 
< int count2 = 0; // 第 二 个 run 胜出 的 次 数 
34. 
35: /4 

* 循 环 遍历 执行 ， 直 到 一 个 run 胜出 
36- 小 测 
Si 
38. dof{ 
S39 assert lenl > 1 && len2 > 0; 
40 . if (c.compare (s.getKey (a，cursor2，key0) ，s.getKey (tmp, cursorl, 

key1)) < 0) { 
41. 5.copyElement (a, cursor2++, a, dest++); 
42. count2++; 
43. Count1 = 0; 
44. if (--len2 == 0) 
45. break outer; 
46. } else { 
47. s.copyElement (tmp, cursorl++, a, dest++); 
48. count1++; 
49. count2 = 07 
50. IE (--lenl == 1) 
51. break outer; 
5 } 
J } while ((count1l | count2) < minGallop); 
54. 
9 Js 


* 一 个 run 持续 胜出 ，galloping 将 胜出 ， 继 续 尝试 运行 ， 直 到 没有 run 再 持续 胜出 
oR */ 
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Ie 

58. dof{ 

59. assert lenl > 1 && len2 > 0; 

60. count1l = gallopRight (s.getKey(a, cursor2, key0), tmp, cursorl, 
Lenlr DEC) 

Gls FE (countEL = "0) TY 

2 5.copyRange (tmp, cursorl，a，dest，count1) : 

3 dest += countl; 

64. cursorl += countl; 

65. lenl -= countl; 

66. if (lenl <= 1) //lenl == 1 || lenl == 

OTe break outer; 

68 . } 

69. s.copyElement (a, cursor2++, a, dest++); 

70. if (--len2 == 0) 

Ts break outer; 

2 

3% count2 = gallopLeft (s.getKey (tmp, cursorl, key0), a, cursor2, 
Len2r Or cy? 

74. if (count2 != 0) { 

TD 5s.copyRange (a, cursor2, a, dest, count2); 

76. dest += count2; 

多 cursor2 += count2; 

:这 len2 -= count2; 

TO if (len2 == 0) 

80 . break outer; 

81. } 

82. s.copyElement (tmp, cursorl++, a, dest++); 

83. if (--lenl == 1) 

84. break outer; 

852 minGallop-—; 

86. } while (countl1 >= MIN GALLOP | count2 >= MIN GALLOP); 

BT if (minGallop < 0) 

88. minGallop = 0; 

89. minGallop += 2; //Penalize for leaving gallop mode 

90. } //“outer” 循 环 结束 

9 this.minGallop = minGallop < 1 ? 1 : minGallop;  // 回 写字 段 

92s 

935 if (lenl == 1) { 

A assert len2 > 0; 

95. s.copyRange (a, cursor2, a, dest, len2); 

96. s.copyElement (tmp, cursorl, a, dest + len2); 

// 最 后 的 run 1 到 合并 结束 

Qs } else if (lenl == 0) { 

98 throw new IllegalArgumentException( 

99. "Comparison method violates its general contract!"); 

100. } else { 

Et assert len2 == 0; 

02. assert lenl > 1; 

D3 s.copyRange (tmp, cursorl, a, dest, lenl); 

104. } 

DSS ji 


TimSort.java 的 sort 方法 中 还 有 一 行 关键 代码 sortState.mergeForceCollapse(), 合并 堆栈 上 
所 有 的 mm， 直到 只 有 一 个 mn。 这 种 方法 是 调用 一 次 ， 完 成 排序 。 
mergeForceCollapse 方法 如 下 。 





he private void mergeForceCollapse() { 
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while (stackSize > 1) { 
int n = stackSize = 2; 
if (nn > 0 SEA runLenln = 1 < rmnLenln + 1]) 
SE 
mergeAt (n); 


OAANAOND 


总 结 : timSort 会 预先 按 连 续 递 增 的 ran 的 片段 归并 元 素 ， 进 入 插入 的 时 候 ， 如 果 长 度 小 
于 rm， 就 会 使 用 insert 进行 排序 的 实现 。 与 mergesort 相 比 ，mergesort 归并 是 预先 定义 好 的 ， 
而 timSort 比较 灵活 。 如 果 第 三 个 run 小 于 栈 项 的 rm， 那 先 归并 第 2 个、 第 3 个 mn， 从 而 得 
出 需要 归并 的 片段 ， 如果 mnl 的 头 部 和 run2 的 尾部 有 不 用 进行 归并 的 部 分 ，timSort 在 截取 的 
基础 上 进行 二 分 排序 ， 得 到 需要 归并 的 起 始 位 置 。 如 果 run 的 长 度 为 1， 就 会 进行 一 些 优化 。 

关于 timSort 排序 : 

timsort 是 结合 了 合并 排序 (merge sort) 和 插入 排序 (insertion sort) 而 得 出 的 排序 算法 ， 
它 在 现实 中 有 很 好 的 效率 。Tim Peters 在 2002 年 设计 了 该 算法 ， 并 在 Python 中 使 用 (timSort 
是 Python 中 list.sort 的 默认 实现 ) 。 该 算法 找到 数据 中 已 经 排 好 序 的 块 -分 区 ， 每 个 分 区 叫 
一 个 ram， 然后 按 规则 合并 这 些 mn。Pyhton 自从 2.3 版 以 来 一 直 采 用 timsort 算法 排序 , 现在 
Java SE7 和 Android 也 采用 Timsort 算法 对 数组 排序 。 

timSort 的 核心 过 程 : 

timSort 算法 为 了 减少 对 升序 部 分 的 回溯 和 对 降序 部 分 的 性 能 倒退 ， 将 输入 按 其 升序 和 
降序 特点 进行 了 分 区 。 排 序 的 输入 不 是 一 个 个 单独 的 数字 ， 而 是 一 个 个 的 块 分 区 。 其 中 每 个 
分 区 叫 一 个 mn。 和 针对 这 些 run 序列 ， 每 次 拿 一 个 run 出 来 按 规则 进行 合并 。 每 次 合并 会 将 
两 个 run 合并 成 一 个 rn。 合并 的 结果 保存 到 栈 中 。 合 并 直到 消耗 掉 所 有 的 run， 这 时 将 栈 
上 剩余 的 ran 合并 到 只 剩 一 个 ran 为 止 。 这 时 这 个 仅 剩 的 run 便 是 排 好 序 的 结果 。 

综合 上 述 过 程 ，timsort 算法 的 过 程 包括 : 

口 如 果 数 组 长 度 小 于 某 个 值 ， 则 直接 用 二 分 插入 排序 算法 。 

口 找到 各 个 mn， 并 入 栈 。 

口 按 规则 合并 run。 

现实 中 的 大 部 分 数据 通常 已 经 是 排 好 序 的 ，timsort 利 用 了 这 一 特点 。timsort 排 序 的 输入 
的 单位 不 是 一 个 个 单独 的 数字 ， 而 是 一 个 个 分 区 。 其 中 每 个 分 区 叫 一 个 mn。 针 对 这 个 run 
序列 ， 每 次 拿 一 个 run 出 来 进行 归并 。 每 次 归并 会 将 两 个 run 合并 成 一 个 rm。 每 个 run 最 少 
要 有 两 个 元 素 。timesor 按照 升序 和 降序 划分 出 各 个 mn: run 如 果 是 升序 的 ， 那 么 ran 中 的 后 
一 元 素 要 大 于 或 等 于 前 一 元 素 (allo] <= allo + 1] <= allo + 2] < …) ; 如 果 run 是 严格 降序 
的 ， 即 un 中 的 前 一 元 素 大 于 后 一 元 素 (allo] > allo+1]> allo+2]> …) ， 就 需要 将 run 
中 的 元 素 翻 转 (这 里 注意 降序 的 部 分 必须 是 “严格 ”降序 ， 才 能 进行 翻转 。 因 为 timSort 的 一 
个 重要 目标 是 保持 稳定 性 stability。 如 果 在 >= 的 情况 下 进行 翻转 ， 这 个 算法 就 不 再 是 
stable) 。 

rn 的 最 小 长 度 : run 是 已 经 排 好 序 的 一 块 分 区 。run 可 能 有 不 同 的 长 度 ，timesort 根据 
rn 的 长 度 选择 排序 的 策略 。 例 如 ， 如 果 run 的 长 度 小 于 某 一 个 值 ， 则 会 选择 插入 排序 算法 
来 排序 。run 的 最 小 长 度 (minrun) 取决 于 数组 的 大 小 。 当 数组 元 素 少 于 64 个 时 ， 那 么 run 
的 最 小 长 度 便 是 数组 的 长 度 ， 这 时 timsort 用 插入 排序 算法 来 排序 。 

优化 roan 的 长 度 : 优化 mn 的 长 度 是 指 当 ron 的 长 度 小 于 minrun 时 ， 为 了 使 这 样 的 run 
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的 长 度 达到 minrun 的 长 度 ， 会 从 数组 中 选择 合适 的 元 素 插入 ron 中。 这样 做 使 大 部 分 的 run 
的 长 度 达 到 均衡 ， 有 助 于 后 面 un 的 合并 操作 。 

合并 rn: 划分 rm 和 优化 run 长 度 后 ， 然 后 就 是 对 各 个 run 进行 合并 。 合 并 run 的 原则 
是 : run 合并 的 技术 要 保证 有 最 高 的 效率 。 当 timsort 算法 找到 一 个 ran 时 ， 会 将 该 run 在 数 
组 中 的 起 始 位 置 和 mn 的 长 度 放 入 栈 中 ， 然 后 根据 先前 放 入 栈 中 的 run 决定 是 否 应 该 合 
run。timsort 不 会 合并 在 栈 中 不 连续 的 run。 

timsort 会 合并 栈 中 两 个 连续 的 rm。X、Y、Z 代表 栈 最 上 方 的 3 个 ron 的 长 度 (图 
31-16) ， 当 不 能 同时 满足 X>Y+Z:， @) Y>Z 两 个 条 件 时 ，X、Y 这 两 个 run 会 被 合并 ， 直 
到 同时 满足 这 两 个 条 件 ， 则 合并 结束 。 例 如 ， 如 果 X<Y+Z， 那 么 X+Y 合 并 为 一 个 新 的 mn， 
然后 入 栈 。 重 复 上 述 步 又， 直到 同时 满足 上 述 两 个 条 件 。 当 合并 结束 后 ，timsort 会 继续 找 下 
一 个 rn， 找到 以 后 入 栈 ， 重 复 上 述 步 又， 每 次 run 入 栈 都 会 检查 是 否 需 要 合并 两 个 ran。 











图 31-16 run 计算 图 
合并 run 的 步骤 : 合并 两 个 相 邻 的 run 需要 临时 存储 空间 。 临 时 存储 空间 的 大 小 是 两 个 
rn 中 较 小 的 run 的 大 小 。timsort 算法 先 将 较 小 的 run 复制 到 这 个 临时 存储 空间 ， 然 后 用 原先 
存储 这 两 个 run 的 空间 来 存储 合并 后 的 nm， 如 图 31-17 所 示 。 


元 素 在 这 个 空间 中 以 最 终 的 顺序 在 储 


图 31-17 mn 示意 图 


简单 的 合并 算法 是 用 简单 插入 算法 ， 依 次 从 左 到 右 或 从 右 到 左 比较 ， 然 后 合并 两 个 
run。 为 了 提高 效率 ，timsort 采用 二 分 插入 算法 。 先 用 二 分 查找 算法 / 折 半 查找 算法 (binary 
search) 找到 插入 的 位 置 ， 然 后 再 插入 。 

例如 ， 要 将 A 和 B 这 两 个 mn 合并 ， 且 A 是 较 小 的 mn。 因 为 A 和 B 已 经 分 别 排 好 序 了 ， 
二 分 查找 会 找到 B 的 第 一 个 元 素 在 A 中 何 处 插入 。 同 样 ，A 的 最 后 一 个 元 素 找到 在 B 的 何 
处 插入 ， 找 到 以 后 ，B 在 这 个 元 素 之 后 的 元 素 就 不 需要 比较 了 。 这 种 查找 可 能 在 随机 数 中 效 
率 不 会 很 高 ， 但 是 在 其 他 情况 下 有 很 高 的 效率 。 

run 合并 过 程 如 图 31-18 和 图 31-19 所 示 。 
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元 素 (9，12，13，14，15) 都 小 于 元 素 21， 
因此 可 被 移动 到 最 终 数组 中 
图 31-19 rn 合并 过 程 二 
timsort 是 稳定 的 算法 ， 当 待 排序 的 数组 中 已 经 有 排序 好 的 数 ， 它 的 时 间 复 杂 度 就 会 小 于 
1 logn。 与 其 他 合并 排序 一 样 ，timesrot 是 稳定 的 排序 算法 ， 最 坏 时 间 复 杂 度 是 O(n log n)。 在 
最 坏 情况 下 ，timsort 算法 需要 的 临时 空间 是 w2， 在 最 好 情况 下 ， 它 只 需要 一 个 很 小 的 临时 
存储 空间 。 


31.17 Spark 2.2.X 中 Sort Shuffle 中 Reducer 端的 源码 内 幕 


本 节 讲 解 Spark 2.2.X 中 Sort Shuffle 中 Reducer 端的 源码 内 幕 , Spark 是 MapReduce 思想 
的 一 种 实现 ， 相 对 于 Hadoop 的 MapRedcue，Spark 作业 Job 根据 算 子 的 依赖 关系 ， 当 是 宽 依 
赖 的 时 候 ， 会 产生 Shuffle， 这 时 划分 成 不 同 的 Stage， 前 面 的 Stage 是 后 面 Stage 的 Mapper， 
后 面 Stage 是 前 面 Stage 的 Reducer。 研 究 的 核心 是 MapReduce 以 及 中 间 网 络 传输 的 过 程 。 
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从 Reduce 的 角度 讲 ， 表 定 有 拉 取 数据 的 过 程 ， 这 与 原始 的 大 数据 分 布 式 思想 完全 一 致 。 在 
Hadoop 的 MapReduce 中 是 链 式 的 ，Map、Reduce, 接着 Map、Reduce， 从 Hadoop 的 角度 讲 ， 
前 面 是 Map，Map，Map… 后 面 是 Redcue，Hadoop 借助 Oozie 工具 来 实现 将 多 个 Map/Reduce 
作业 连接 到 一 起 ， 而 Spark 基于 DAG 的 模型 天 然 可 友 代 。 

Spark 研究 Reducer 端的 Stage 时 , 从 ShuffledRDD 去 谈 。 从 RDD 的 运行 角度 讲 , Shuffled 
的 RDD 是 RDD 的 具体 实现 ， 因 此 关键 是 分 析 compute 方法 。 

ShuffledRDD 的 compute 方法 的 代码 如 下 。 














Ls override def compute (split: Partition, context: TaskContext): Iterator 
WE CY = 

2 val dep = dependencies.head.asInstanceOf [ShuffleDependency[K, V, CcC]] 

3 SparkEnv .get .shuffleManager .getReader (dep.shuffleHandle, split.index, 

split.index + 1, context) 

4. .read() 

.asInstanceOf [Iterator[(K, C)]] 

6. } 

7 


按照 面向 对 象 的 机 制 ， 首 先 调用 RDD 的 compute 方法 ， 而 RDD 的 compute 是 空 实现 ， 
-个 抽象 方法 ， 子 类 具体 实现 去 计算 一 个 分 区 partition。RDD.scala 的 compute 如 下 。 


Ms def compute(split: Partition, context: TaskContext): Iterator[T] 


从 RDD 的 角度 讲 ， 运 行 的 是 并 行 任务 的 集合 ， 在 ShuffledRDD 的 compute 方法 中 ， 
dependencies.head.asInstanceOf[ShuffleDependency[K, V, C]] 是 获得 Shuffle 级 别 的 依赖 关系 ， 
然后 在 SparkEnv.get.shuffleManager 获得 SortShuffleManage， 因 为 在 构建 SparkEnv 的 时 候 ， 
Spark 2.2.X 中 默认 是 org.apache.spark.shuffle.sort.SortShuffleManager。 

在 ShuffledRDD 的 compute 方法 中 ，SparkEnv.get.shuffleManager.getReader 是 获取 
ShuffledRDD 的 阅读 器 , 阅读 器 的 核心 作用 是 读 取 分 布 在 不 同 节点 上 Map 中 的 task 计算 的 结 
果 的 数据 ， 传 入 的 参数 是 shuffleHandle， 根 据 Dependency 获得 的 。compute 获得 的 是 一 个 迭 
代 器 Iterator[(K, C)]， 类 型 是 泛 型 ，C 是 计算 以 后 的 类 型 ， 要 进行 聚合 。 

SparkEnv.get.shuffleManager.getReader 是 SortShuffleManager 的 getReader， 是 获取 数据 
的 阅读 器 。Reducer 端 Task 在 运行 的 时 候 ， 会 抓 取 自己 想 要 的 数据 。 

本 override def getReader[K, C]( 


夭 


这 handle: ShuffleHandle, 

之 把 startPartition: Int, 

4 endPartition: Int, 

所 context: TaskContext): ShuffleReader[K，C] = { 

尼 new BlockStoreShuffleReader( 

了 handle.asInstanceOf [BaseShuffleHandle[K, ，C]]，startPartition， 


endPartition, context) 
8. } 
getReader 方法 很 简单 ， 就 调用 new 函数 创建 一 个 BlockStoreShuffleReader 实例 ， 进 入 
BlockStoreShuffleReader 实例 中 ， 看 一 下 BlockStoreShuffleReader.scala 的 read 方法 。 
Spark 2.1.1 版 本 的 BlockStoreShuffleReader.scala 的 read 的 源码 如 下 。 





5 隔 override def read(): Iterator[Product2[K, C]] = { 
Zs Val blockFetcherItr = new ShuffleBlockFetcherIterator ( 


LT 
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3 context, 
SS blockManager .shuffleClient, 
RE blockManager, 
Bs mapOutputTracker.getMapSizesByExecutorId (handle.shufflelId, 
startPartition, endPartition), 
7 // 注 意 : 为 保持 后 向 兼容 性 ， 当 没有 后 绥 时 ， 使 用 getSizeAsMb 
局 SparkEnv.get .conf.getSizeAsMb ("spark.reducer.maxSizeInFlight", 
"48m") * 1024 * 1024, 
局 SparkEnv.get.conf.getInt ("spark.reducer.maxReqsInFlight", 
Int.MaxValue)) 
10. 
11. ”// 根 据 配置 对 流 进行 压缩 和 加 密 
2 Val wrappedStreams = blockFetcherItr .map { case (blockId, inputStream) 
=> 
35 serializerManager.wrapStream (blockId，inputStream) 
14. | 
5 
6 val serializerInstance = dep.serializer.newInstance() 
所 二 
3 // 为 每 个 流 创建 一 个 键 Key/ 值 Value 迭代 器 
9 val recordIter = wrappedStreams.flatMap { wrappedStream => 
20 // 注 意 : asKeyValueIterator 在 迭代 器 NextIterator 内 部 包 玩 键 Key/ 值 
Value。 当 下 层 InputStream 所 有 记录 已 读 , NextIterator 确保 close 方法 被 调用 
2 serializerInstance.deserializeStream(wrappedStream) .asKeyValueIterator 
225 } 
23-。 
2 // 为 每 个 记录 更 新 上 下 文 任务 度量 
ed val readMetrics = context .taskMetrics.createTempShuffleReadMetrics() 
26. val metricIter =CompletionIterator[ (Any, Any), Iterator[ (Any, Any)]]( 
2 recordIter.map { record => 
之 8- readMetrics .incRecordsRead (1) 
> record 
30. 1 
et context.taskMetrics() .mergeShuffleReadMetrics ()) 
2 
38 // 为 了 支持 任务 取消 ， 这 里 必须 使 用 可 中 断 欠 代 器 
3 val interruptibleIter = new InterruptibleIterator[ (Any, Any)] (context, 
metricIter) 
35e 
3S6e val aggregatedIter: Iterator[Product2[K, C]] = if (dep.aggregator. 
isDefined) { 
区 上 后 if (dep.mapSideCombine) { 
38. // 读 取 已 经 组 合 的 值 
39< val combinedKeyValuesIterator = interruptibleIter.asInstanceOf 
[Iterator[(K，C)]] 
40 . dep .aggregator .get.combineCombinersBYKey (combinedKeyValues-— 
Iterator， context) 
i } else { 
2 // 不 知道 值 类 型 ， 但 也 不 关注 值 类 型 一 一 依赖 已 经 确定 了 聚合 ， 将 Value 值 类 型 转换 
// 为 组 合 C 类 型 
43. Val keyValuesIterator = interruptibleIter.asInstanceOf [Iterator 
[(K, Nothing)]] 
44. dep.aggregator.get .combineValuesByKey (keyValuesIterator, 
context) 
45. {1 
46. } else { 
47. require(!dep.mapSideCombine, "Map-side combine without Aggregator 


specified!") 
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interruptibleIter.asInstanceOf[Iterator[Product2[K, C]]] 
ji 


// 如 果 定 义 排序 ， 则 对 输出 进行 排序 
dep.keyOrdering match { 
case Some(keyOrd: Ordering[K]) => 
// 创 建 一 个 ExternalSorter 对 数据 排序 。 注意, 如 果 spark.shuffle.spill 禁 
// 用 ， 则 ExternalSorter 不 会 溢出 到 磁盘 
Val sorter = 
new ExternalSorter[K, C, C] (context, ordering = Some (keyOrd) ， 
serializer = dep.serializer) 
sorter.insertAll (aggregatedIter) 
context .taskMetrics () .incMemoryBytesSpilled (sorter .memoryBytes— 
Spilled) 
context .taskMetrics () .incDiskBytesSpilled (sorter.diskBytes- 
Spilled) 
context .taskMetrics () .incPeakExecutionMemory (sorter .peakMemory-— 
UsedBytes) 
CompletionIterator[Product2[K, C], Iterator[Product2[K, C]]] 
(sorter.iterator, sorter.stop()) 
case None'=> 

aggregatedIter 

} 

} 


Spark 2.2.0 版 本 的 BlockStoreShuffleReader.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 


特点 。 


口 





口 口 口 


co~awm 必 wm 


实例 化 ShuffleBlockFetcherIterator 时 传 入 streamWrapper、maxReqSizeShuffleToMem、 
detectCorrupt 参数 。 streamWrapper 是 包 于 返回 的 输入 流 的 函数 ， 
maxReqSizeShuffleToMem 是 可 以 被 Shuffled 到 内 存 的 请 求 的 最 大 大 小 (以 字 节 为 单 
位 ) ，detectCorrupt 表示 是 否 检 测 获 取 块 中 的 任何 损坏 。 

变量 名 称 blockFetcherItr 更 新 为 wrappedStreams。 
删除 上 段 代 码 中 的 第 12、13 行 。 

上 段 代 码 中 的 第 19 行 wrappedStreams.flatMap 方法 的 wrappedStream 修改 为 模式 匹配 
值 case (blockId, wrappedStream)。 


Val wrappedStreams = new ShuffleBlockFetcherIterator( 


SparkEnv.get.conf.get (config.REDUCER MAX REQ SIZE SHUFFLE TO MEM), 
SparkEnv.get.conf.getBoolean ("spark.shuffle.detectCorrupt", true)) 


= 


BlockStoreShuffleReader.scala 的 read 方法 中 ， 从 Reduce Task 的 角度 讲 ， 我 们 读 取 
Key-value 的 集合 ， 因 为 同样 的 Key 分 布 在 很 多 节点 上 ， 这 是 Map Reduce 实现 思想 。 首 先 实 
例 化 new ShuffleBlockFetcherIterator， 这 个 非常 重要 。 


口 














ShuffleBlockFetcherIterator 是 一 个 阅读 器 ， 里 面 有 一 个 成 员 blockManager ， 
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blockManager 是 内 存 和 磁盘 上 数据 读 写 的 统一 管理 器 ; mapOutputTracker 是 上 一 阶 
段 Mapper 输出 的 数据 位 置 被 mapOutputTracker 跟踪 。 从 Driver 角度 讲 ，Driver 中 有 
一 个 mapOutputTrackerMaster， 其 他 节点 上 有 一 个 mapOutputTracker, 是 master-slave 
的 结构 。 根 据 mapOutputTracker.getMapSizesByExecutorId 方法 通过 发 送 消息 获取 
ShuffleMapTask 存储 数据 的 具体 位 置 ， 消 息 是 发 送 给 Driver， 在 上 一 个 Mapper 阶段 
数据 写 到 本 地 磁盘 的 时 候 , 会 告诉 Driver 数据 写 在 什么 地 方 , 方法 是 和 Driver 通信 ， 
获得 上 一 个 Stage 或 Mapper 的 具体 存储 数据 位 置 的 元 数据 信息 。 
spark.reducer.maxSizeInFlight: 每 次 最 大 可 以 读 取 多 少数 据 ， 默 认 是 48MB， 网 络 好 
的 情况 下 ， 参 数 可 以 适当 调 大 一 点 ， 如 增 大 为 95MB， 甚 至 更 高 ， 这 样 可 以 减少 抓 取 
数据 的 次 数 。 
spark.reducer.maxReqsInFlight: 是 从 远程 节点 请 求 块 的 数量 ， 这 里 是 无 限 次 。 最 好 减 
少 其 次 数 。 

blockFetcherItr 实例 类 通过 map 转换 ， 基 于 压缩 和 加 密 ， 构 建 一 个 wrappedStreams 
serializerInstance 构建 序列 化 器 。 

对 于 每 个 wrappedStreams 生成 一 个 key-value 类 型 的 迭代 器 recordIter。 其 中 
deserializeStream 是 反 序列 化 。 

readMetrics: 每 条 记录 被 读 取 后 ， 要 更 新 Metrics， 这 样 在 Web UI 控制 台 或 者 交互 式 
控制 台 上 就 会 看 到 相关 的 信息 。Shuffle 的 运行 肯定 需要 相关 的 Metrics。metricIter 
是 一 个 迭代 器 。 

interruptibleIter 传 入 的 是 metricIter， 运 行 的 时 候 可 能 要 中 断 ， 需 取消 我 们 的 迭代 。 
aggregatedIter 判断 在 Mapper 端 进行 聚合 怎么 做 ; 不 在 Mapper 端 聚合 怎么 做 。 首 先 
判断 aggregator 是 否 被 定义 ， 如 果 已 经 定义 aggregator， 再 判断 map 端 是 否 需 聚合 ， 
我 们 谈 的 是 Reducer 端 ,为 什么 这 里 需 在 Mapper 端 进行 聚合 呢 ? 原因 很 简单 :Reducer 
可 能 还 有 下 一 个 Stage， 如 果 还 有 下 一 个 Stage， 那 这 个 Reducer 对 于 下 一 个 Stage 而 
言 ， 其 实 就 是 Mapper， 是 Mapper 就 须 考虑 在 本 地 是 否 进行 聚合 。 办 代 是 一 个 DAG 
图 假设 如 果 有 100 个 Stage， 这 里 是 第 10 个 Stage， 作 为 第 9 个 Stage 的 Reducer 
端 ， 但 是 作为 第 11 个 Stage 是 Mapper 端 ， 作 为 Shuffle 而 言 ， 现 在 的 Reducer 端 相 
对 于 Mapper 端 。Mapper 端 需 要 聚合 ， 则 进行 combineCombinersByKey。Mapper 端 
也 可 能 不 需要 聚合 , 只 需要 进行 Reducer 端的 操作 。 如 果 aggregator.isDefined 没 定义 ， 
则 出 错 提 示 。 

dep.keyOrdering 是 否 对 输出 结果 进行 排序 : 根据 传 进来 的 keyOrdering 判断 ， 如 果 进 
行 排序 ， 就 调用 new 函数 创建 一 个 ExtemalSorter。 我 们 之 前 在 Mapper 端 已 讲解 过 
ExternalSorter 的 源码 ，ExternalSorter 里 面 是 timsort。 接 下 来 是 insertAll，insertAll 
与 Mapper 端的 代码 一 样 ， 也 须 判断 磁盘 是 否 进行 Spill。 














再 次 回 到 ShuffledRDD 的 compute 方法 ， 获 得 getReader 以 后 ， 须 进行 read， 跟 踪 至 
BlockStoreShuffleReader 的 read0 ，BlockStoreShuflleReader 的 read 里 面 最 重要 的 内 容 是 
ShuffleBlockFetcherlterator， 须 深入 到 ShuffleBlockFetcherIterator 类 。 

ShuffleBlockFetcherIterator 中 传 入 了 getMapSizesByExecutorld 成 员 ， 下 面 看 一 下 


“0s 
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getMapSlizesByYExecutorId 。 


def getMapSizesBYExecutorId (shuffleId: Int, startPartition: Int, 
endPartition: Int) 


} 


: Seq[l (BlockManagerId, Seq[ (BlockId, Long)])] = { 
logDebug (s"Fetching outputs for shuffle $shufflelId, partitions 
$startPartition-$endPartition") 
val statuses = getStatuses (shuffleId) 
// 在 返回 的 数组 上 进行 同步 块 锁 ， 因 为 在 Driver 上 它 会 发 生变 化 
statuses.synchronized { 
return MapOutputTracker.convertMapStatuses (shufflelId, startParti- 
tion, endPartition, statuses) 


} 


getMapSizesByExecutorId 是 我 们 的 Executor 根据 URI 获取 元 数据 ， 然 后 返回 
Seq[(BlockManagerId, Seq[(BlockId, Long)])]。getStatuses 的 代码 如 下 。 


:i 
总 
和 


wooau 





private def getStatuses (shuffleId: Int): Array[MapStatus] = { 


val statuses = mapStatuses.get (shuffleId) .orNull 
if (statuses == null) { 
logInfo ("Don't have map outputs for shuffle "+ shuffleId+", fetching 
them") 
val startTime = System.currentTimeMillis 
Var fetchedStatuses: Array[MapStatus] = null 
fetching.synchronized { 
// 其 他 任务 在 获取 它 ， 等 任务 执行 完毕 
while (fetching.contains (shuffleId)) { 
try { 
fetching.wait () 
yeateh { 
case e: InterruptedException => 
} 
} 


// 或 者 在 等 待 的 时 候 ， 获 取 数 据 成 功 了 ; 或 者 在 同步 块 获取 数据 的 时 候 ， 其 他 任务 获 
// 取 到 它 
fetchedStatuses = mapStatuses.get (shuffleId) .orNull 
IE (fetchedStatuses == null) { 
// 去 获取 数据 ， 其 他 任务 等 待 
fetching += shuffleId 
} 
| 


if (fetchedStatuses == null) { 


// 获 取 到 状态 
logInfo ("Doing the fetch; tracker endpoint = " + trackerEndpoint) 
//try-finally 防止 由 于 超时 挂 掉 
try { 
val fetchedBytes =askTracker [Array [Byte]] (GetMapOutputStatuses 
(shuffleId) ) 
fetchedStatuses = MapOutputTracker .deserializeMapStatuses 
(fetchedBytes) 


logInfo("Got the output locations") 

mapSstatuses.put (shufflelId, fetchedStatuses) 
finally 

fetching.synchronized { 


“Ls 
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fetching -= shuffleId 
fetching.notifyAll () 
| 
:| 
logDebug (s"Fetching map output statuses for shuffle $shufflelId took "+ 
s"${System.currentTimeMillis - startTime} ms") 


if (fetchedStatuses != null) { 
return fetchedStatuses 
} else { 
logError ("Missing all output locations for shuffle " + shuffleId) 
throw new MetadataFetchFailedException( 
shuffleId, -1, "Missing all output locations for shuffle "+ 
shuffleId) 
} 
} else { 
return statuses 
| 
} 


MapOutputTracker.scala 中 的 getStatuses 方法 要 读 取 上 一 个 Stage 的 数据 的 元 数据 。 


口 


口 





mapStatuses.get(shuffleId) 首 先 查 看 本 地 是 否 有 数据 ， 如 果 本 地 有 数据 ， 就 返回 ， 如 果 
本 地 没有 数据 ， 则 从 远程 节点 获得 数据 。 

这 里 有 一 个 同步 代码 块 : 使 用 while 进行 循环 遍历 ， 因 为 从 远程 节点 获取 数据 ， 由 于 
网 络 因素 ， 或 者 远程 机 器 在 进行 GC 时 可 能 会 获取 数据 不 成 功 ， 或 者 别人 占用 了 资 
等 待 之 后 再 次 尝试 获取 数据 ， 这 里 使 用 了 和 之 前 同样 的 一 行 代 码 fetchedStatuses = 
mapStatuses.get(shuffleId).orNull。 因 为 在 等 待 的 过 程 中 ,同一 个 Executor 的 其 他 任务 
把 数据 拉 到 了 本 地 ， 那 就 不 用 从 远程 拉 数 据 ， 通 过 mapStatuses.get 即 可 获取 本 地 数 
据 。 如 果 fetchedStatuses 为 空 ， 还 是 没有 获取 到 数据 ， 就 需 从 远程 获取 ， 将 要 获取 的 
数据 shuffleId 加 入 到 fetching。 

askTracker 及 GetMapOutputStatuses(shuffleId) 真 正 从 远程 获取 数据 ，fetchedBytes 获 
得 数据 后 进行 反 序列 化 得 到 fetchedStatuses， 这 里 的 数据 是 元 数据 。 然 后 将 数据 加 入 
到 mapStatuses 里 面 。 如 果 fetchedStatuses 不 为 空 ， 则 直接 获取 结果 。 如 果 
fetchedStatuses 还 为 空 ， 则 提示 报错 。 


MapOutputTracker.scala 的 getStatuses 方法 中 的 val fetchedBytes = askTracker[Array[Byte]] 
(GetMapOutputStatuses(shuffleId)) 代 码 是 关键 ，GetMapOutputStatuses 是 一 个 case class， 本 身 
是 一 个 消息 ， 继 承 自 MapOutputTrackerMessage， 而 MapOutputTrackerMessage 是 一 个 trait。 
askTracker 通过 RPC 发 送 消 息 。 根 据 传 入 的 shuffleId 不 断 地 去 获取 信息 。 下 面 看 一 下 
askTracker 的 代码 ， 这 里 使 用 了 rpe 的 trackerEndpoint。 

Spark 2.1.1 版 本 的 MapOutputTrackerscala 的 源码 如 下 。 


1 
之 
3 
4. 
为 
6 


De 


protected def askTracker[T: ClassTag] (message: Any): T= { 
EE 
trackerEndpoint .askWithRetry[T] (message) 
Hecatech 
case e: Exception => 
logError ("Error communicating with MapOutputTracker", e) 
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后 throw new SparkException("Error communicating with MapOutput- 
Tracker", e) 

8. } 

9. } 


Spark 2.2.0 版 本 的 MapOutputTracker.scala 的 源码 与 Spark 2.1.1 版 本 相 比 具有 如 下 特点 : 
上 段 代 码 中 的 第 3 行 askWithRetry 方法 调整 为 askSync 方法 。 

IT 

2. trackerEndpoint .askSync[T] (message) 


trackerEndpoint 是 RpcEndpointRef，Executor 在 执行 任务 的 时 候 实 例 化 Endpoint， 从 
Worker 的 角度 ， 发 消息 给 Driver。 


于 /** MapOutputTrackerMaster 的 RpcEndpoint 类 */ 
2. Private[spark] class MapOutputTrackerMasterEndpoint( 


3 override val rpcEnv: RpcEnv, tracker: MapOutputTrackerMaster, conf: 
SparkConf) 
extends RpcEndpoint with Logging { 


logDebug ("init") //logger 记录 日 志 


co ~ aow 心 


override def receiveAndReply (context: RpcCallContext): PartialFunction 
[Any, Unit] = { 

了 case GetMapOutputStatuses (shuffleId: Int) => 

0. Val hostPort = context.senderAddress.hostPort 

Fh logInfo ("Asked to send map output locations for shuffle " + shuffleId 
"to hostporty 

val mapOutputStatuses = tracker.post (new GetMapOutputMessage 
(shuffleId, context)) 


DL 


case StopMapOutputTracker => 
logInfo ("MapOutputTrackerMasterEndpoint stopped!") 
context .reply (true) 
stop () 
1 





oo~awm 必 ww 


| 


MapOutputTrackerMasterEndpoint 从 运行 角度 讲 ， 仍 在 Executor 中 。 在 receiveAndReply 
方法 中 ，MapOutputTrackerMasterEndpoint 收 到 信息 ， 模 式 匹配 GetMapOutputStatuses 。 
tracker.post 方法 是 Master 级 别 的 ， 是 Driver 中 的 ，tracker 本 身 是 MapOutputTrackerMaster， 
发 消息 GetMapOutputMessage。GetMapOutputMessage 其 实 是 一 个 简单 的 case class 。 

那么 ， 从 哪里 获取 消息 处 理 的 代码 呢 ? 肯定 是 在 MapOutputTrackerMaster 中 。 
MapOutputTrackerMaster 代码 运行 在 Driver 中 。 
private[spark] class MapOutputTrackerMaster (Conf: SparkConf, 


broadcastManager: BroadcastManager, isLocal: Boolean) 
extends MapOutputTracker (conf) { 


private class MessageLoop extends Runnable { 
override def run(): Unit = { 
try { 


co amwm 必 wm 
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10. while (true) { 

站 Cy 

2 val data = mapOutputRedquests .take () 

{ 话 江 if (data == PoisonPill) { 

全 // 放 回 PoisonPi11， 其 他 MessageLoops 可 以 看 到 它 

“六 mapOutputRedquests -offer (PoisonPil1) 

GE return 

17. } 

18= val context = data.context 

是 val shuffleId = data.shuffleId 

20. val hostPort = context.senderAddress.hostPort 

2 logDebug ("Handling request to send map output locations for 
shuffle " + shuffleId + 

22» "Eo "+ hostBort) 

光志 val mapOutputStatuses = getSerializedMapOutputStatuses 
(shuffleId) 

24. context .reply (mapOutputStatuses) 

Ds jy catch 和 

26- case NonFatal (e) => logError (e.getMessage, e) 

人 } 

28. . 

9 } catch { 

< 1 属 case ie: InterruptedException => // 退 出 

SL } 

2 } 

| 


MapOutputTrackerMaster 里 面 有 很 多 HashMap， 采 样 线程 池 不 断 地 接收 消息 ， 其 中 的 
MessageLoop 中 包含 了 业务 ， 使 用 while 不 断 循环 ， 和 Spark 1.6.X 有 差别 ， 这 里 ，while 循环 
的 是 mapOutputRequests。mapOutputRequests 是 一 个 链 式 的 阻塞 队列 LinkedBlockingQueue， 
我 们 发 消息 就 发 给 LinkedBlockingQueue 。LinkedBlockingQueue 中 的 消息 类 型 就 是 
GetMapOutputMessage， 与 刚才 发 的 消息 类 型 一 样 。run 方法 中 循环 不 断 地 从 数据 结构 中 获取 
数据 ， 如 果 有 数据 ， 则 解析 数据 。 解 析 数 据 获 取 data.shuffleId, 读 的 数据 通过 
getSerializedMapOutputStatuses 进行 序列 化 ,然后 返回 消息 进行 reply。 

在 MapOutputTrackerscala 中 ， 通 过 val fetchedBytes = askTracker[Array[Byte]](GetMap- 
OutputStatuses(shuffleId)) 调 用 askTracker 方法 。 

本 到 代码 的 主线 ， 获 得 数据 之 后 ， 从 实际 理论 上 讲 ， 必 须 对 数据 进行 处 理 。 从 
MapOutputTracker.scala 中 找 一 下 哪里 调用 了 getStatuses 方法 。 














def getStatistics (dep: ShuffleDependency[ , _, _]): MapOutput- 
Statistics = { 

蕊 val statuses = getStatuses (dep.shuffleId) 

3 // 在 返回 的 数组 上 同步 块 锁 ， 因 为 在 Driver 上 它 会 发 生变 化 

好 statuses.synchronized { 

5 订 val totalSizes = new Array[Long] (dep.partitioner.numPartitions) 
6 for (s <- statuses) { 

7 for (i <- 0 until totalSizes.length) { 

8. totalSizes(i) += s.getSizeForBlock (i) 

a. 1 


10 . } 

LTS new MapOutputStatistics (dep.shuffleId, totalSizes) 
了 2 } 

3 和 


Ms 
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getStatuses 获取 数据 后 ， 使 月 





日 同步 代码 块 ，MapOutputTrackerconvertMapStatuses 要 做 的 


一 件 事 情 是 什么 呢 ? 我 们 看 一 下 MapOutputTrackerscala 的 convertMapStatuses 代码 ， 把 返回 
的 数据 按照 一 定 的 格式 ， 获 得 status.location 具体 的 位 置信 息 。 


3 


Private def convertMapStatuses ( 
shuffleId: Int, 
startPartition: Int, 
endPartition: Int, 


statuses: Array[MapStatus]): Seq[ (BlockManagerId, Seq[ (BlockId, 


Long)])] = { 
assert (statuses != null) 
val splitsByAddress = new HashMap[BlockManagerId, 
ArrayBuffer[ (BlockId, Long)]] 
for ((status, mapId) <- statuses.zipWithIndex) { 
if (status == null) { 


val errorMessage = s"Missing an output location for shuffle 


$shuffleId" 
logError (errorMessage) 


throw new MetadataFetchFailedException (shufflelId, startPartition, 


errorMessage) 
else { 
for (part <- startPartition until endPartition) { 


splitsByAddress.getOrElseUpdate (status.location, ArrayBuffer()) += 
((ShuffleBlockId (shuffleId, mapId, part), status.getSizeFor- 


Block (part))) 
} 
} 


splitsByAddress .toSeq 


.1} 


重新 回 到 BlockStoreShuffleReader, 在 ShuffleBlockFetcherIterator 实例 化 的 过 程 中 调用 了 
initialize() ， initialize 首先 是 splitLocalRemoteBlocksO 划分 本 地 和 远程 的 
Utils.randomize(remoteRequests) 把 远程 请 求 通过 随机 的 方式 添加 到 的 队列 中 ， 
fetchUpToMaxBytes() 发 送 远程 请 求 获 取 我 们 的 block，fetchLocalBlocks() 获 取 本 地 的 blocks。 

下 面 看 一 下 splitLocalRemoteBlocks 代码 。 


口 
口 


日 日 豆 日 





splitLocalRemoteBlocks 返回 的 类 型 是 ArrayBuffer[FetchRequest] 。 
math.max(maxBytesInFlight / 5, 1L) 远 程 请 求 最 大 值 为 maxBytesInFlight ( 单 
最 大 字 节 数 ) 的 115， 这 里 用 5 个 并 发 线程 从 5 个 节点 上 进行 读 取 。 

new ArrayBuffer[FetchRequest] 绥 存 远程 [FetchRequest] 的 对 象 。 

totalBlocks 是 block 的 数量 。 

for 循环 遍历 blocksByAddress，blocksByAddress 是 前 面 的 status location 返 


blocks ， 


次 请 求 的 


回 的 。 


最 后 通过 blockManager 去 拿 数 据 ， 这 里 先进 行 一 个 判断 : address.executorId 一 





blockManager.blockManagerId.executorId， 从 本 地 拿 数 据 ， 否 则 从 远程 拿 数 
从 远程 拿 数据 首先 获得 迭代 器 blockInfos.iterator，curRequestSize 是 累计 获 
的 大 小 ，curBlocks 是 当前 提供 的 块 ，ArrayBuffer 中 的 元 素数 据 类 型 是 





据 
取 数 据 块 
〈BlockId, 





Long) ， 如 果 节 点 频繁 地 请 求 ， 数 据 量 不 是 很 大 ， 也 有 可 能 造成 网 络 故障 。 


while 循环 累加 到 curRequestSize >= targetRequestSize, 即 请 求 的 数据 块 大 小 


已 经 大 于 


= 
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远程 节点 数据 块 大 小 的 时 候 ， 在 remoteRequests 中 加 入 FetchRequest。 
ShuffleBlockFetcherIterator.scala 的 splitLocalRemoteBlocks 的 代码 如 下 。 





Ws private[this] def splitLocalRemoteBlocks(): ArrayBuffer[FetchRequest] 
= 

2 // 远 程 请 求 最 多 maxBytesInFlight / 5 的 长 度 ， 让 它们 小 于 maxBytesInFlight 的 
原因 是 允许 并 发 ， 并 行 读 取 5 个 节点 以 上 ， 而 不 是 阻塞 从 一 个 节点 读 取 输 出 

< val targetRequestSize = math.max (maxBytesInFlight / 5, 1L) 

A logDebug ("maxBytesInFlight: " + maxBytesInFlight + ", 
targetRequestSize: " + targetRequestSize) 

SB 

( // 分 割 本 地 和 远程 块 。 远 程 模块 进一步 切 分 为 FetchRequests 大 小 (最 大 为 
maxBytesInFlight， 其 为 了 限制 数据 传送 数量 ) 

Ts val remoteRequests = new ArrayBuffer[FetchRequest] 

8. 

9. // 跟 踪 块 总 数 〈 包 括 零 大 小 块 ) 

局 Var totalBlocks = 0 

kh for ((address, blockInfos) <- blocksByAddress) { 

2 totalBlocks += blockInfos.size 

:性 元 if (address .executorId == blockManager.blockManagerId.executorId) { 

1 // 滤 出 零 大 小 的 块 

15. localBlocks ++= blockInfos.filter( . 2 != 0).map( . 1) 

6s numBlocksToFetch += localBlocks.size 

jy 关 } else { 

18 . val iterator = blockInfos .iterator 

19. Var curRequestSize = 0L 

20: Var curBlocks = new ArrayBuffer[ (BlockId, Long)] 

2 while (iterator.hasNext) { 

人 2 val (blockId, size) = iterator.next () 

235 // 跳 过 空 块 

24. LE (size 0O) { 

2 curBlocks += ((blockId, size)) 

2 remoteBlocks += blockId 

2 numBlocksToFetch += 1 

28e curRequestSize += size 

又 3 } else if (size < 0) { 

30- throw new BlockException (blockId, "Negative block size " + size) 

3 } 

x if (curRequestSize >= targetRequestSize) { 

3 // 增 加 FetchRequest 

EL remoteRequests += new FetchRequest (address, curBlocks) 

< curBlocks = new ArrayBuffer[ (BlockId, Long)] 

36. logDebug(s"Creating fetch request of $curRequestSize at 

Saddress") 

3 curRequestSize = 0 

38 } 

EE | 

40. // 增 加 最 后 的 请 求 

< 有 if (curBlocks .nonEmpty) { 

他 2 remoteRequests += new FetchRequest (address, curBlocks) 

攻守 |; 

44. } 

5 此 

46. logInfo(s"Getting $numBlocksToFetch non-empty blocks out of 
S$totalBlocks blocks") 

47. remoteRequests 

48. | 
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继续 回 到 ShuffleBlockFetcherIterator scala 的 initialize 代码 中 ， 下 一 句 关键 的 代码 是 
fetchUpToMaxBytes()。fetchUpToMaxBytes() 用 于 获取 远程 的 block， 具 体 代码 如 下 。 














private def fetchUpToMaxBytes(): Unit = { 
// 发 送 获取 请 求 ， 最 大 为 maxBytesInF1ight 
while (fetchRequests.nonEmpty && 
(bytesInFlight == 0 || 
(reqsInFlight + 1 <= maxReqsInFlight && 
bytesInFlight + fetchRequests.front.size <= maxBytesInFlight))) { 
sendRequest (fetchRequests .dequeue () ) 
} 
} 


oawm 必 wwN 


fetchUpToMaxBytes 里 是 一 个 while 循环 ， 首 先 单 次 的 请 求 小 于 maxReqsInFlight， 然 后 

sendRequest。sendRequest 方法 是 至 关 重 要 的 代码 。 

口 req.blocks.map 根据 blockId 获得 block 的 大 小 。 

口 shuffleClient.fetchBlocks 根据 shuffleClient 的 fetchBlocks 获取 数据 。 里 面 给 了 
BlockFetchingListener 监听 器 ， 请 求 成 功 时 有 自己 的 处 理 方式 ， 请 求 失败 时 也 有 自己 
的 处 理 方式 。 

下 面 看 一 下 ShuffleBlockFetcherIteratorscala 中 的 sendRequest 方法 中 的 fetchBlocks。 
fetchBlocks 是 ShuffleClient.java 的 方法 。ShuffleClient 是 一 个 抽象 类 。ShuffleClient,java 的 子 
类 是 BlockTransferService。 

Spark 2.1.1 版 本 的 BlockTransferService.scala 的 fetchBlocks 方法 的 源码 如 下 。 

override def fetchBlocks( 
host: String, 
port: Int, 
execId: String, 


blockIds: Array[String]， 
listener: BlockFetchingListener): Unit 


On 心 wm 


Spark 2.2.0 版 本 的 BlockTransferService.scala 的 fetchBlocks 方法 的 源码 与 Spark 2.1.1 版 
本 相 比 具有 如 下 特点 : 新 增 传 入 shuffleFiles 参数 。 


站 
2. shuffleFiles: Array[File]): Unit 


BlockTransferService.scala 中 的 fetchBlocks 仍然 是 抽象 的 。 我 们 继续 看 它 的 子 类 
NettyBlockTransferService， 默 认 采用 Netty 方式 ， 使 用 RPC 通信 。 
回 到 ShuffleBlockFetcherlterator.scala 的 sendRequest 方法 如 下 。 





1. private[this] def sendRequest (req: FetchRequest) { 


2 

3 shuffleClient.fetchBlocks (address.host, address.port, address. 
executorId, blockIds.toArray, 

4. 


回 到 调用 sendRequest 的 地 方 ，ShuffleBlockFetcherlterator.scala 的 fetchUpToMaxBytes 如 下 。 


Se 


下 篇 ”性 能 调 优 








private def fetchUpToMaxBytes(): Unit = { 
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继续 回 到 调用 fetcthUpToMaxBytes 的 地 方 ，ShuffleBlockFetcherIteratorscala 的 initialize 
方法 如 下 。 





private[this] def initialize(): Unit = { 


1 
他 < 
“ fetchUpToMaxBytes () 
4 


ShuffleBlockFetcherIterator.scala 的 initialize 方法 的 下 一 步 是 fetchLocalBlocks() 。 远程 获 
取 数 据 使 用 的 是 Netty 方式 ， 那 本 地 获取 数据 的 方式 我 们 可 以 看 一 下 fetchLocalBlocks。 


private[this] def fetchLocalBlocks() { 
val iter = localBlocks.iterator 
while (iter.hasNext) { 
val blockId = iter-next() 
try { 
Val buf = blockManager .getBlockData (blockId) 
shuffleMetrics.incLocalBlocksFetched(1) 
shuffleMetrics.incLocalBytesRead (buf .size) 
buf.retain() 
0. results.put (new SuccessFetchResult (blockId, blockManager. 
blockManagerId, 0, buf, false)) 
ycately { 
case e: Exception => 


1 
2 
35 // 如 果 出 现 异常 ， 就 立即 停止 
4. 
5 
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logError(s"Error occurred while fetching local blocks", e) 
results.put (new FailureFetchResult (blockId, blockManager. 
blockManagerId，e) ) 
return 
b 
j 
} 





Wo 


ShuffleBlockFetcherIterator.scala 的 fetchLocalBlocks 首先 获取 localBlocks.iterator 迭代 器 ， 
基于 迭代 器 进行 循环 遍历 ， 数 据 是 被 blockManager 管理 的 。 下 面 看 一 下 blockManager 的 
getBlockData。 

Spark 2.1.1 版 本 的 blockManagerscala 的 getBlockData 方法 的 源码 如 下 。 


1. override def getBlockData (blockId: BlockId): ManagedBuffer = { 


有 if (blockIdq.isShuffle) { 

后 shuffleManager .shuffleBlockResolver .getBlockData (blockId. 
asInstanceof [ShuffleBlockId]) 

A } else { 

i getLocalBytes (blockId) match { 

| - 训 case Some (buffer) => new BlockManagerManagedBuffer (blockInfoManager, 

blockId, buffer) 
Ye case None => 


= 
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// 如 果 这 个 块 管理 器 接收 一 个 它 没有 的 块 的 请 求 ， 那 可 能 是 master 的 块 状态 已 经 过 时 了 ， 因 
// 此 发 送 一 个 RPC， 将 这 个 块 标记 为 在 这 个 块 管理 器 中 不 可 用 

reportBlockstatus (blockId, BlockStatus.empty) 

throw new BlockNotFoundException (blockId.toString) 





} 
} 


Spark 2.2.0 版 本 的 blockManager.scala 的 getBlockData 方法 的 源码 与 Spark 2.1.1 版 本 相 比 
具有 如 下 特点 : 上段 代码 中 的 第 6 行 ，buffer 名 称 调整 为 blockData，BlockManagerManaged 
Buffer 类 新 增 dispose 的 布尔 值 参数 。 


有 
2 
< 局 


case Some (blockData) => 
new BlockManagerManagedBuffer (blockInfoManager, blockId, 
blockData, true) 


跟 进去 ShuffleBlockResolver 的 getBlockData， 这 里 是 空 方法 。 


已 


def getBlockData (blockId: ShuffleBlockId): ManagedBuffer 


其 子 类 IndexShuffleBlockResolver 的 getBlockData 是 sort Shuffle 的 方式 ， 其 中 
DataInputStream 就 是 文件 读 取 。 





override def getBlockData (blockId: ShuffleBlockId): ManagedBuffer= 
{ 

// 这 个 块 实际 上 是 单个 映射 输出 文件 的 范围 ， 所 以 找 出 合并 文件 ， 然 后 从 我 们 

// 的 索引 中 找到 偏 移 量 

val indexFile = getIndexFile (blockId.shuffleId，blockId.mapId) 


val in = new DataInputStream (new FileInputStream(indexFile)) 
Ev 
ByteStreams.skipFully (in, blockId.reducelId * 8) 
val offset = in.readLong() 
val nextOffset = in.readLong() 
new FileSegmentManagedBuffer( 
transportConf, 
getDataFile (blockId.shufflelId, blockId.mapId), 
offset, 
nextOffset - offset) 
bh finally { 
in.close() 
1 
. 


到 ShuffledRDD.scala 的 compute。 
override def compute(split: Partition, context: TaskContext) : 


Iterator[(K，C)] = { 
val dep = dependencies.head.asInstanceOf [ShuffleDependency[K, V, CcC]] 


"i 
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& 后 SparkEnv.get.shuffleManager.getReader (dep.shuffleHandle, split. 
index, split.index + 1, context) 

Ws .read() 

Ss -asInstanceOf[Iterator[(K, C)]] 

6. } 


其 中 ，ShuffleReader.scala 的 read 方法 返回 的 是 Iterator。 


1. private[spark] trait ShuffleReader[K，C] { 
3 /** 读 取 此 汇聚 任务 的 组 合 key-values 键 值 对 。 */ 
入 def read(): Iterator[Product2[K, C]] 


ShuffleReader.scala 的 子 类 BlockStoreShuffleReader.scala 的 read 方法 获得 一 个 Iterator， 
获得 数据 以 后 进行 处 理 ， 到 ShuffleBlockFetcherIterator 的 initialize 方法 ， 构 造 完 成 。 
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本 书 从 2017 年 2 月 19 日 接 到 家 林 大 神 的 电话 约 稿 编写 Spark 商业 案例 的 内 容 开 始 ，6 


宛如 电影 大 片 回放 , 一 路 走 来 , 心里 面 有 很 多 话 想 对 读者 说 , 但 又 不 知 从 何 说 起 , 既然 从 Spark 
结缘 ， 那 就 谈 谈 我 在 Spark 中 的 学 习 体会 吧 ! 

(1) Spark 学 习 要 循序 渐进 、 由 浅 入 深 、 由 易 到 难 ， 要 有 学 习 Spark 的 兴 

2015 年 年 初 : 我 开始 接触 大 数据 技术 。2015 年 初 ， 集 团 公司 组 织 了 各 省 公司 的 大 数据 
技术 培训 , 系统 地 讲解 了 大 数据 的 基础 知识 , 涵盖 的 知识 范围 包括 大 数据 存储 : HDFS、HBase; 
离线 大 数据 分 析 : MapReduce、Hive; 在 线 大 数据 处 理 : Impala、Storm、Spark、Redis、HBase; 
数据 采集 Flume; 辅助 工具 Zookeeper 等 。 由 此 ， 我 初步 建立 了 大 数据 的 概念 ， 通 过 集团 
公司 提供 的 实 操 环 境 有 了 一 定 的 系统 实 操 能 力 。 

2015 年 年 中 : 在 寻找 大 数据 学 习 资 料 的 时 候 , 偶遇 家 林 大 神 , 家 林 是 Apache Spark、Android 
技术 中 国 区 布道 师 ， 那 时 他 每 天 都 会 发 布 Scala 的 学 习 课程 。 机 缘 巧 合 ， 我 就 跟着 他 学 习 了 
Scala 深入 浅 出 实战 初级 入 门 经 典 视频 课程 (90 讲 ) 、Scala 深入 浅 出 实战 中 级 进 阶 经 典 视 频 
课程 (91 一 111 讲 ) 等 一 系列 课程 。 通 过 学 习 Scala 语言 , 我 有 幸 参与 了 家 林 大 神 主编 的 《Scala 
语言 基础 和 开发 实战 》 图 书 的 编写 ， 这 是 我 第 一 次 参与 技术 图 书 的 编写 工作 。 

2016 年 : 这 一 年 是 Spark 学 习 提 升 的 关键 一 年 。2016 年 年 初 ， 我 学 习 了 家 林 的 大 数据 不 
卢 夜 ，Spark 内 核 天 机 解密 (140 讲 ) ， 之 后 掀起 了 2016 年 波澜 壮阔 的 Spark 学 习 浪潮 ， 家 
林 每 天 一 课 ， 包 括 大 数据 IMEF 传奇 行动 、 大 数据 Spark “蘑菇 云 ” 行 动 、 大 数据 JVM 性 能 
优化 实战 、 大 数据 Spark 源码 定制 班 等 课程 ( 共 约 500 讲 ) 。 我 是 2016 年 家 林 Spark 课程 全 
程 的 参与 者 、 见 证 者 、 经 历 者 、 推 广 者 ， 作 为 家 林 的 001 号 技术 助理 ， 我 的 Spark 技术 能 力 
得 到 了 极 大 的 提升 。 

2016 年 ， 我 在 Spark 技术 方面 的 收获 如 下 : 

口 掌握 了 Spark 基础 知识 : Linux、Java、MySQL、Scala、Hadoop 入 门 、Hadoop 进 阶 ， 
特别 是 Hadopp Map reduce 知识 , 深刻 地 理解 了 Spark 分 布 式 计算 的 前 传 一 一 Hadoop 
基于 Key-Value 的 计算 方法 ， 其 是 分 布 式 计 算 思 想 的 基石 。 

口 阅读 了 Spark 技术 栈 核心 源码 : 包括 Spark 框架 中 Spark Core、Spark SQL、Spark 
Streaming 的 核心 源码 以 及 Spark 性 能 的 内 容 。 

口 掌握 了 Spark 技术 栈 全 栈 架 构 技 术 的 扩展 知识 : 包括 JVM 虚拟 机 、Kakfa 集群 、 
Zookeeper 集群 、 Hadoop 集群 等 。 

口 2016 年 ， 我 参与 了 家 林 大 神 主编 的 《Spark 内 核 机 制 解析 及 性 能 调 优 》 图 书 的 编写 ， 
这 是 我 第 二 次 参与 技术 图 书 的 编写 工作 。 

2017 年 是 Spark 学 习 的 理论 著作 期 。 我 学 习 了 家 林 的 Spark 商业 案例 与 性 能 调 优 实战 课 

程 ， 基 于 之 前 积累 的 Spark 知识 ， 编 写本 书 如 下 内 容 。 
(1) 2 月 19 日 一 4 月 30 日 : 编写 Spark 大 数据 商业 实战 三 部 曲 第 二 部 分 Spark 商业 案例 




















Spark 大 数据 商业 实战 三 部 曲 : 内 核 解 密 | 商业 案例 | 性 能 调 优 








的 内 容 。 

(2) 4 月 30 日 一 7 月 10 日 : Spark 开发 团队 于 2017 年 5 月 2 日 推出 了 Spark 2.1.1 版 本 ， 
结合 Spark 2.1.1 的 源码 内 容 编写 Spark 大 数据 商业 实战 三 部 曲 第 一 、 三 部 分 : Spark 内 核 解密 
以 及 Spark 性 能 调 优 内 容 。 

(3)7 月 10 日 一 8 月 19 日 : Spark 开发 团队 于 2017 年 7 月 11 日 推出 了 Spark 2.2.0 版 本 ， 
Spark 2.2.0 是 一 个 里 程 碑 式 的 版 本 ，Spark 2.2.0 版 本 之 前 的 很 多 特性 是 试验 性 的 ，Spark 2.2.0 
是 Spark 2.2 中 第 一 个 真正 完全 可 以 把 Spark 的 所 有 特性 在 生产 环境 使 用 的 版 本 ， 大 家 等 了 半 
年 的 时 间 。 预 计 在 2018 年 10 月 以 前 , 这 个 版 本 是 Spark 2.2 系列 在 企业 实际 中 使 用 的 一 个 最 
重要 的 版 本 ， 虽 然后 续 有 版 本 更 新 ， 但 是 企业 的 使 用 会 有 一 个 过 程 。 因 此 ， 根 据 家 林 大 神 的 
建议 : 本 书稿 基于 Spark 已 有 版 本 的 内 容 同步 增加 了 Spark 2.2.0 版 本 的 内 容 ， 读 者 可 以 看 到 
Spark 的 版 本 变化 带 来 源码 的 变化 ， 对 于 初学 者 而 言 ， 具 有 非常 重要 的 价值 。 

(2) 关于 Spark 的 学 习 方法 。Spark 技术 的 研究 是 一 项 长 期 、 艰 苦 、 枯 燥 的 工作 。 关 于 
Spark 的 学 习 方 法 ， 体 会 如 下 : 

口 Spark 要 多 学 多 练 ， 实 践 出 真知 。 朱 喜 《 朱 子 语 类 》 日 : 知之 愈 明 ， 则 行 之 愈 笃 ; 行 

之 傅 笃 ， 则 知之 益 明 。Spark 的 透彻 掌握 需要 将 Spark 原理 和 Spark 实践 相 结 合 。 为 
了 学 习 Spark， 我 购买 了 华为 的 利 旧 服务 器 设备 ， 在 服务 器 上 搭建 了 Spark 的 开发 环 
境 ， 模 拟 出 1 个 master 和 8 个 worker 节点 ， 基 于 测试 环境 实现 了 Java 版 本 和 Scala 
版 本 第 114 课 SparkStreaming+Kafka+Spark SQL+TopN+MySQL 电 商 广告 点 击 综合 案 
例 实战 ， 在 实践 中 提升 了 Spark 的 实战 功力 。 

口 Spark 技术 学 习 可 以 一 个 技术 大 神 为 导师 。 著 名 科学 家 牛顿 曾经 说 过 : “如 果 说 我 比 
别人 看 得 远 一 点 ， 那 是 因为 我 站 在 巨人 的 肩 上 。” 我 在 IT 技术 学 习 的 道路 上 走 过 不 
少 弯路 ， 在 Spark 技术 的 林海 中 探索 时 容易 迷路 ， 只 见 树叶 不 见 森 林 ， 家 林 的 Spark 
课程 可 以 带领 大 家 在 Spark 学 习 之 路 上 走 大 路 ,不 走 小 路 , 帮助 大 家 走 一 条 学 习 Spark 
知识 的 捷径 。 

口 Spark 学 习 要 长 期 坚持 、 长 期 麻 练 。 每 天 坚持 看 Spark 的 课程 或 核心 源码 ， 每 天 至 少 
抽出 30 分 钟 的 时 间 看 。《 中 庸 》 日 : 人 一 能 之 ,已 百 之 ; 人 十 能 之 ， 已 千 之 。 只 要 
坚持 学 习 ， 总 会 有 收获 、 有 所 得 。 

口 Spark 学 习 不 要 单打 独 斗 ， 要 结伴 同行 。 有 名 名 人 名 言 : “如 果 你 想 走 得 快 ， 就 一 个 
人 走 ; 如 果 你 想 走 得 远 ， 就 一 群 人 走 ”。 独自 学 习 Spark 会 遇 到 很 多 问题 ， 虽 然 通过 
自己 的 努力 能 够 解决 ， 但 是 往往 要 花费 大 量 的 时 间 。 加 入 Spark 的 QQ 学 习 群 、 微 信 
群 等 ， 在 Spark QQ 群 里 ， 大 家 可 以 互通 消息 、 互 相 学 习 、 共 同 进步 。 

口 Spark 学 习 很 重要 的 一 点 是 要 乐于 分 享 学 习 成 果 。 在 学 习 Spark 的 过 程 中 ， 可 以 将 相 
关 的 知识 点 记录 下 来 ， 分 享 到 博客 上 与 同学 们 共享 。 乐 于 分 享 ， 既 是 与 同学 们 共同 
学 习 , 更 是 帮助 自己 整理 Spark 知识 点 、 记 录 要 点 ， 有 利于 之 后 的 总 结 。 从 家 林 的 课 
程 记 录 博 客 开 始 , 至 今 已 经 在 CSDN 博客 网 站 上 发 布 约 400 篇 文章 , 也 获得 了 CSDN 
网 站 的 认可 ， 荣 获 博 客 专家 称号 。 读 者 在 博客 上 的 反馈 ， 激励 自己 去 深入 研究 Spark 
的 关键 技术 点 ， 与 读者 共同 思考 、 共 同 提高 。 在 实战 课程 中 ， 家 林 为 我 提供 了 网 络 
在 线 授课 的 平台 , 让 我 直接 面 对 网 络 学 员 讲解 , 在 “10w 分 区 表 , hive 能 跑 , Spark SQL 
运行 也 完全 能 跑 起 来 ”有利 “ 第 114 课 SparkStreaming+Kafka+Spark SQL+TopN+ MySQL 
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电 商 广告 点 击 综合 案例 实战 ”的 视频 讲解 中 , 和 学 员 们 共同 提升 , 大 家 一 起 讨论 Spark 














(3) Spark 技术 之 外 的 生活 也 很 重要 。 对 于 年 轻 的 读者 朋友 们 、 奋 斗 在 互联 网 运营 开发 
一 线 的 同学 们 ， 功 诫 各 位 注意 身体 ， 每 日 坚持 锻炼 。 

在 学 习 Spark 期 间 , 我 遇 到 很 多 有 趣 的 人 和 事 ,也 以 Spark 会友, 认识 了 许多 热衷 于 Spark 
技术 的 朋友 ， 在 这 里 希望 将 自己 学 习 Spark 的 相关 经 验 分 享 出 来 ， 为 Spark 学 习 者 提供 一 些 
借鉴 、 参 考 和 启发 ， 汲 取 Spark 学 习 的 经 验 ， 共 同学 习 进 步 。 

至 此 ， 不 负 家 林 大 神 的 重托 和 信任 ， 如 期 完成 本 书 大 部 分 内 容 的 编写 工作 ， 心 头 如 释 重 
负 。 本 书 的 完成 要 感谢 很 多 人 。 首 先 要 感谢 家 林 大 神 ， 没 有 家 林 ， 就 没有 这 本 书 ， 在 本 书 的 
编写 过 程 中 ， 我 多 次 得 到 家 林 大 神 的 电话 指导 ， 家 林 在 邮件 中 对 书稿 的 内 容 精 心 统筹 安排 ， 
提纲 扫 领 六 述 了 Spark 的 整体 架构 及 最 新 技术 发 展 ， 使 得 本 书 得 以 顺利 编写 完成 ， 在 此 衷心 
感谢 家 林 大 神 在 Spark 领域 给 我 提供 的 足够 大 的 舞台 ， 在 Spark 业界 能 与 家 林 一 起 奋斗 ， 是 
我 莫大 的 荣幸 ! 

其 次 要 感谢 我 的 家 人 的 理解 和 支持 ， 感 恩 我 的 父亲 和 母亲 。 在 本 书写 作 的 过 程 中 ， 缺 乏 
对 孩子 段 亦 庭 的 照顾 ， 和 和 孩子 少 了 很 多 一 起 游戏 、 学 习 的 时 间 ， 是 太太 吴 澄 萍 默默 承担 了 对 
孩子 的 照顾 和 教育 。 家 人 的 理解 和 支持 ， 亦 庭 更 是 我 的 动力 源泉 ， 使 我 能 够 坚持 下 去 、 一 路 
前 行 ， 未 来 和 孩子 共同 成 长 ， 见 证 这 段 努 力 的 岁月 ， 不 忘 初 心 ， 方 得 始终 。 

同时 感谢 单位 提供 的 平台 ， 为 本 书 案例 编写 提供 了 相关 素材 。 也 感谢 所 有 的 读者 朋友 ， 
你 们 的 支持 和 鼓励 激励 着 我 们 未 来 为 大 家 提供 更 多 Spark 的 相关 专业 书籍 。 








段 智 华 于 上 海 2017.8.19 


*。1143。 


